关闭

OCR字符切割

标签: OCR字符切割charactor dissection
1724人阅读 评论(0) 收藏 举报
分类:

字符分割是OCR中相当重要的环节,  直接关系到最后的识别准确率.


最近一直在做车牌检测,  用颜色与edge定位中一直没有办法避免某些特殊情况的干扰,  

且样本来源未知,  没办法去设定一个相对较优的参数. (绝大部分时间用在这了=.=!)

用机器学习? 这方面我还不怎么懂而且也没有好的样本去训练, 准确率肯定还不如老方法.  

有点奇怪为什么那些论文对算法本身局限的解决并不谈及


有一种用先验的参数来分割字符的,  比如说先尺寸的归一化,  

利用每个字符的宽度间距是固定的这一特性来进行分割.


还有一种是利用垂直投影,  类似下面

图片来源:A Method of Multi-License Plate Location in Road Bayonet Image


当然还看到有用霍夫变换的,  用于字符倾斜矫正就不提了,  下面这篇文章利用hough变换进行分割

A New Algorithm for Character Segmentation of License Plate


更多的字符分割方法综述可以参看下面几篇文章,  点击可看原文, 多看看说不定会有什么启发

A SURVEY OF METHODS AND STRATEGIES IN CHARACTER SEGMENTATION

FEATURE EXTRACTION METHODS FOR CHARACTERRECOGNITION | A SURVEY

SEGMENTATION OF TOUCHING CHARACTERS IN PRINTEDDOCUMENT RECOGNITION 

Cursive Word Recognition: Methods and Strategies

An Overview of Character Recognition Focused on Off-Line Handwriting


我比较在意的部分是,  对于尺寸未知,  有噪声干扰且字符粘连的情况怎么解决?

推荐一篇很有价值的的文献:Text-based CAPTCHA Strengths and Weaknesses

还有一篇自然场景下的字符识别 Reading Digits in Natural Images with Unsupervised Feature Learning

下面都是第一篇综述的字符切割部分
首先它归纳了三大类字符分割方法, 他们之间可以互相结合
1.经典方法,  即把图像进行切割,  把可能的字符切割出来
2.基于识别的分割方法,  即搜索待识别的图像以找出可能的字符
3.将整个单词(word)作为整体来识别

关于切割的方法:

1.固定间距切割




2. 垂直投影,  相连的情况



3. Connected Component

  1.  Bounding Box (opencv中可以用boundingRect函数)
  2.  Splitting of Connected Components(often work as a follow-on to bounding box)
  3.  Landmarks(貌似不太靠谱)

关于字符分割的第一大类方法,  看了几天资料,  一般用的就是上面三种(如果有别的我应该有印象)

看大家识别验证码也是用的上述三种,  当然还有更高级的,  不用切割直接用CNN识别,  网上说很火很有效


关于切割前的预处理可能就要具体看应用了吧.

看到有用中值滤波去噪点的,  有用直方图均衡化来增强前景的.


也有用腐蚀去噪的,  多次腐蚀然后多次膨胀,  每次腐蚀、膨胀一个像素,  当干扰被腐蚀去除, 且在接下来的膨胀中

不再出现时说明干扰被去除(此文中所提到的开运算应该不是先腐蚀紧接着膨胀,  印象里多次的开闭运算是和进行一次一样的)

注意这个仅对干扰比待识别的字符小(细或大小不相近)时有用


相较之下 MRF aka Gibbs algorithm更有效(Text-based CAPTCHA中提到的,  我还没有研究过)


我想知道复杂背景比如不规律的网格怎么去除的?  暂时还没有找到方法


有一个方法要提一下,  针对车牌检测

         A License Plate-Recognition Algorithm for Intelligent Transportation System Applications

中提到用两个同心的滑窗,  判断两个M的比值是否大于给定数值


where M is the statistical measurement (mean value or standard deviation)



投影法切割字符http://blog.csdn.net/traumland/article/details/51586614

0
0

猜你在找
【直播】机器学习&数据挖掘7周实训--韦玮
【套餐】系统集成项目管理工程师顺利通关--徐朋
【直播】3小时掌握Docker最佳实战-徐西宁
【套餐】机器学习系列套餐(算法+实战)--唐宇迪
【直播】计算机视觉原理及实战--屈教授
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之矩阵--黄博士
【套餐】微信订阅号+服务号Java版 v2.0--翟东平
【直播】机器学习之凸优化--马博士
【套餐】Javascript 设计模式实战--曾亮
查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:56226次
    • 积分:1023
    • 等级:
    • 排名:千里之外
    • 原创:46篇
    • 转载:0篇
    • 译文:0篇
    • 评论:15条
    最新评论