1、问题描述与OCR过程
照片光学字符识别 —>>> OCR
目的:让计算机识别照片中的文本信息
现状:衔阶段文档的图片识别性能很好,但是普通数码图片中的文本识别还是比较弱的
OCR实现过程:
- 文本区域检测
- 字符分离
- 字符识别
- 也可以加一些词语矫正,如: c1ean -> clean
2、滑动窗口
文字的矩形窗大小不一样
2.1 先来介绍行人检测,因为人的长宽比是基本一致的。
训练器训练:
滑动窗口行人检测:遍历
2.2 文本检测:
训练集:
通过滑动串口检测文本可能存在的概率:然后排出奇形怪状的亮点,比如竖着的矩形,或者拐弯的矩形。
2.3 字符分离
2.4 字符识别见神将网络的数字识别
3、和获取大量数据和人工数据
低偏差,大数据是一个很好的机器学习模型。
人工合成训练集数据合成数据时候要考虑实际的意义,不能对边改变一些现实中将不会存在的情况。
有关获得更多数据的几种方法:
1.人工数据合成
2.手动收集、标记数据
3.众包
4、上限分析
在机器学习的应用中,我们通常需要通过几个步骤才能进行最终的预测,我们如何能够知道哪一部分最值得我们花时间和精力去改善呢?这个问题可以通过上限分析来回答。
流程图中每一部分的输出都是下一部分的输入,上限分析中,我们选取一部分,手工提供100%正确的输出结果,然后看应用的整体效果提升了多少。假使我们的例子中总体效果为72%的正确率。
如果我们令文字侦测部分输出的结果100%正确,发现系统的总体效果从72%提高到了89%。这意味着我们很可能会希望投入时间精力来提高我们的文字侦测部分。
接着我们手动选择数据,让字符切分输出的结果100%正确,发现系统的总体效果只提升了1%,这意味着,我们的字符切分部分可能已经足够好了。
最后我们手工选择数据,让字符分类输出的结果100%正确,系统的总体效果又提升了10%,这意味着我们可能也会应该投入更多的时间和精力来提高应用的总体表现。