机器学习第十一周--照片OCR

ML Pipeline

OCR指光学字符识别,作者这里介绍照片OCR技术的目的主要有三个:

1、展示一个复杂的机器学习系统是如何被组合起来的。
2、介绍机器学习流水线(ML pipeline)的有关概念以及决定下一步如何分配资源。
3、通过介绍照片OCR问题的机会来告诉你机器学习的诸多有意思的想法和理念。其中之一是如何将机器学习应用到计算机视觉问题中,第二是有关人工数据合成(artificial data synthesis)的概念。

照片OCR技术主要解决的是让计算机读出照片排到的文字信息。

照片OCR

照片OCR的具体步骤如下:

照片OCR步骤

1、文字识别–Text detection 用文字识别技术找到给定图片中的文字信息。
2、字符切分–Character segmentation 对这些文字区域的矩形轮廓进行字符切分
3、字符分类–Character classification 当文字被分割成独立的字符之后,我们可以尝试运行一个分类器,输入这些可识别的字符,然后试着识别出上面的字符。
其实还有最后一步–拼写校正,假如你的字符分割和分类系统告诉你它识别到的字是“C1eaning”,那么很多拼写修正系统会告诉你,这可能是单词“Cleaning”的拼写,你的字符分类算法刚才把字母“l”识别成了数字“1”,但本科中,不考虑这一步。

ML pipeline

像上面的一个系统,我们称之为机器学习流水线。机器学习问题中,组织好这个流水线是非常重要的。下面给出照片OCR的流水线。
pipeline

这样就将一个系统具体划分成了好几个模块,可以让不同的人完成不同的模块。并行工作,提高效率。


滑动窗

作者这里先由行人检测的例子引出:

1、指定行人比例,如82:36
2、搜集样本,有行人的和无行人的。
3、训练算法,输入样本,进行分类,把  y=1  表示正样本,有行人,  y=0  表示负样本,无行人。

行人

具体到行人检测中,假设我们获得一幅新的测试样本,我们从图像左上角起,取一小块矩行,规定每次步长,逐步长移动,对于每个矩形框中的结果,通过我们训练得到的分类器来判断其中是否有行人。

行人检测

当然,可以调整矩形框的大小和步长,最后得到的结果如下:

这里写图片描述

同理,运用到文字识别中是一样的。
首先,训练分类器

这里写图片描述

其次,在目的图片上滑动窗体,识别文字区域

这里写图片描述
白色区域代表找到了文字的区域,黑色区域代表没有找到文字。不同的灰度表示分类器给出的输出结果的概率值,所以比如有些灰色的阴影表示分类器在这片区域似乎发现了文字,但并不十分确信;而比较白亮的区域则表示分类器预测这个区域有文字 的概率比较大。

代入展开器(expansion operator)
展开器的作用就是取过这张图片,对每一个白色的小点都扩展为一块白色的区域。
忽略掉那些比较奇怪的区域,因为我们知道有文字的区域应该不是很高的,而是比较宽的。所以我们忽略那些又高又瘦的白块。然后对剩下的那些,从比例上来看比较像正常的文字区域的白块画上矩形窗。见上图。

字符分割
同样地,我们还是使用一种监督学习算法,用一些是否存在字符之间的分割区域的正样本和一些负样本来训练一个分类器。
分类器
使用同样的窗体滑动方式(只不过使用的分类器不同),扫描文字检测系统输出的文字区域图像,分类器告诉我们  y=1  时,就意味着我们需要在中间画一条线,分开两个字符,否则就跳过。如果正常的话,分类器会告诉我们应该在什么地方来将图像分割为独立的字符。


人工合成数据

我们往往期待的机器学习算法模型是低偏差的,因为这样,我们就能通过加入大量数据集就能提高算法效率。事实情况是,我们已有的数据并不能满足要求,我们需要人工合成数据,人工合成数据有以下俩种途径:

1、创造新的数据。
2、扩大一个已存在的带标签的小数据集,获得新数据。

创造新数据

还是以照片OCR为例
这里写图片描述
我们知道现代计算机中通常都有一个很大的字体库,我们也可以下载到很多免费的字体样式,所以如果你想要获得更多的训练样本,其中一种方法是你可以采集同一个字符的不同种字体,然后将这些字符加上不同的随机背景来创造训练样本。在生成模拟数据的时候,需要考虑对模拟的样本进行模糊、变形、旋转等操作,因为这样创造出来的样本比较真实。如果你草率的生成一些样本,那么最终训练出来的算法可能效果不是很好。

通过这样的操作之后,你可以得到这样一个合成之后的训练集
这里写图片描述

通过已有的样本创造新的样本

我们选取一个真实的样本,然后通过添加别的数据来扩大你的训练集。

这里写图片描述
比图中字母A,来自于一个真实的图像(不是一个合成的图像),为了方便描述,我在图像上加了一些灰色的网格。实际上是没有这些格子的。你要做的就是取出这个图像,进行人工扭曲,或者人工变形。这样从一个图像A就能生成16种新的样本。

再比如在语音识别过程中也可以加入新的噪声:

语音识别

所以用这种方法,你可以把一个很小的带标签训练集突然一下扩大,得到更多的训练样本。

注意:这种方法也要考虑引入什么因素进行变形是合理的。比如,如果是加入一些随机的噪声,通常讲是不起作用的。如下随机引入一些高斯噪声,不起任何作用。

这里写图片描述

总结:
在获取更多的训练数据时一般会有以下注意事项

注意事项

1、优化算法,模型最好是低偏差。
2、思考要花费多大代价来获得10倍于我们现有的数据量?
3、众包方法–用来人工标记样本。


上限分析

前面我们说过,机器学习问题我们一般会组织一个机器学习流水线,从流水线的各个模块中并行工作。但是我们不知道哪个模块对于提升系统效率值得我们耗费更多的时间。本节提到的上限分析作用就在于告诉你流水线上的哪个部分最值得花时间。

我们仍然以照片OCR为例:
照片OCR

主要思想:
假设整个系统估计准确率为72%。然后分别假设每一个模块的准确率为100%的情况下得到的系统整体准确率。如假设文字检测模块的准确率为100%的情况下,此时整个系统的准确率为89%。相应的算出其它情况下的准确率。

我们再一步步分析每个模块间的增益,如果我们拥有完美的文字检测模块,那么整个系统的表现将会从准确率72%上升到89%,因此效果的增益是17%。这就意味着,如果你在现有系统的基础上花费时间和精力改善文字检测模块的效果,那么系统的表现可能会提高17%。而相对来讲,如果我们取得完美的字符分割模块,那么最终系统表现只提升了1%。
所以通过这样的分析,我们该在哪个模块投入更多的时间就一目了然了。

再以一个人脸识别为例,并给出流水线
这里写图片描述

步骤依次

1、预处理,移除背景
2、人脸检测—眼睛分割–鼻子分割–嘴部分割
3、逻辑回归

根据流水线做一个上限分析如下:

人脸识别上限分析

通过上限分析,发现背影预处理并没有那么重要,我们应该把经历更多花在人脸检测上。

建议:机器学习的问题最好能组织成流水线形式,根据流水线的每个模块分别做上限分析,然后找到最该花时间的模块。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值