图像字符识别示例

知识点

  1. 流水线
  2. “滑窗”算法
  3. 获取更多数据
  4. 上限分析

解析

流水线强调分工。以图像文字识别(Photo OCR)为例,可以将分成收集图像,文字检测,字符分割和字符识别四个模块。根据项目的大小,每个模块可以由多个人合作完成,也可以一个人完成这四个模块。

“滑窗”算法用一个较小方框(滑窗)从左到右,从上到下在大图上依次滑过,标注大图中是否包含滑窗中的内容,并在大图中标记下来。可以用多个型号的滑窗标记不同大小的内容。比如,在图像文字识别中的文字检测模块中,标记出每个字符所在的位置。

获取更多数据的方法分为两种:一是收集更多的数据,二是把现有的数据通过变形得到更多的人造数据。人造数据力求做到数据仿真。比如在图像文字识别中通常做法有,适度扭曲,旋转图像;替换图片背景/前景(添加干扰信息)等做法。要在大尺度上修改,不要在小尺度上修改。比如在单像素级别上做修改得到得数据和原数据相差无几,基本上算是一个数据,这样就起不到扩充数据的效果。

上限分析是对每个模块进行分析,观察修改哪个模块可以使系统性能大幅提升,从而优化资源分配,将有限资源用到能大幅度提升性能的模块中。例如,图像文字检测机器学习分三个部分:
1. 从图像中检测出文字块的位置
2. 将文字块分割成字符块
3. 识别字符块
假设该机器学习整体准确率为72%。人工干预第1部分,使图像100%正确检测出文字块的位置,得到该机器学习的整体准确率为89%;然后人工干预第2部分,使文字快100%正确分割成字符块,得到该机器学习的整体准确率为91%;最后人工干预第3部分,使100%正确识别字符块,得到该机器学习的整体准确率为100%。这时就可以分析出,如果将第1部分做到极致,可以提高17%的整体准确率;如果将第2部分做到极致,可以提高2%的整体准确率;如果将第3部分做到极致,可以提高9%的整体准确率。这样看,第1部分有很大的潜力提升整齐准确率,要着重优化这部分算法。

术语

  • Optical Character Recognition(OCR),光学字符识别
  • pipeline, 流水线
  • sliding window, 滑窗
  • ceiling analysis, 上限分析
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值