基于深度学习的OCR大致过程总结(基于吴恩达机器学习课程笔记)

OCR(optical character recognizer) 

一个简单的ocr系统可大致分为三步: 

 

1.Text detection 2.Character segmentation 3.Character classification 

如: 

 

复杂一些的ocr系统带有第四步 即spelling correct system 

 

如当第三步将cleaning 识别为c1eaning时,会更正为cleaning 

 

 

其中的Character recognition便可以使用我们经典的MNIST字符串检测(可将数据集由手写改为我们所需要的数据集,从10分类变为多分类任务)(DL或SVM,事实证明,使用LeNet效果显著) 

 

接下来分别介绍detection和segmentation步骤

 

Text Detection: 

难点:每一段text的长度都是不固定的,很难用一个固定的模板或窗口去匹配。 

(相比来说,行人检测的大部分框都有类似的长宽比,所以我们只要找一个固定长宽比的矩形框便可) 

 

类似行人检测,文本检测也是使用sliding window在图片滑动,如左图,就是分类器最后提取的含有文本的地方(其中白色表示含有文字很高的概率,灰色表示概率不高)。接下来做一些处理,可以舍弃灰色部分,同时舍弃宽高比例不合适的白色部分(因为文本的宽一般比高要大很多),最后在留下的高亮部分画矩形便是提取到的结果。 

 

Character Segmentation: 

还是可以继续使用监督学习(正负样本) 

可以以此判断图中是否含有要分割的地方。 

最后得到如下结果: 

 

其中副样本包含的两种情况分割全是错误的。 

 

 

此时的sliding windows是一个一维的窗口 

 

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值