1.问题描述与 OCR pipeline
图1.图像文字识别流水线
首先是输入图片-》进行文字检测-》字符分割-》字符识别。
这些阶段分别需要1-5人这样子。
2.滑动窗口
主要讲滑动窗口分类器。
图2.滑动窗口检测
对于行人检测来说,矩阵框有长宽相同的比例,虽然具体的数值会变化,但比例不变;但是对于文字检测来说,文字酷块的比例大小是不同的。
对滑动窗口来说,首先有一个窗口从图片左上角开始检测,每滑动到一个地方就将图片切割,并调整为(82*36)并输入进滑动窗口检测器中;
每次移动的距离称为步长;直到将图片扫描完毕为止;
一次扫描完之后,增加矩形框大小,再次进行扫描分类。
图3.文字检测
对图像进行窗口扫描之后,有文字的部分会被标为白色,色度的高低表示是否有文字的置信度。
但图片中也有一些文字未被检测出来。
可将文字部分剪切出来,进行下一步的工作。
图4.一维滑动窗口进行字符分割
对于左边的样本,窗口中能够有一个直线,为正样本,即可以分割;进行有监督学习
对于右边的样本,y=0,不可分割。此时滑动窗口只遍历一行即可,直到将所有的字符分开。
图5.图像OCR流水线
1.首先 进行文字检测;
2.进行字符分割;
3.进行字符识别。
3.获取大量数据和人工数据
图6.人工数据合成
左图中是真实的从图片中获取的数据;右图是通过人工合成的,其中的字体是从网上下载的,并通过仿射等一系列技术形成图片。
但是如果合成的不好,那么会对其产生影响。
图7.对数据进行扰乱
左边的A是从真实图片中获取的,可以通过对A进行distortion来获取更多的数据集。
一个很好的例子就是语音识别,对同一个语音,加入嘈杂银、背景音、对音轨进行操作等,以此来扩充数据集,生成额外的标注样本。
图8.应该添加什么样的失真
对于可行的添加失真的方法,应该是具有代表性的,有可能在测试集中出现的。
并且给出了一个并不是可行的失真方法,比如对图像加入像素级的噪声,这通常对识别是没有帮助的。
图9.对获取更多数据的一些讨论
1. 首先在扩大数据集之前需要确定分类器是低偏差的,如果是高偏差那么就需要先增加特征数量或者是增加神经网络中隐藏层的单元数量。
2.如果要获得10倍的数据量需要多少工作呢?获取数据量的渠道 :
人工数据合成、自己标记数据、进行众包。
那么在解决机器学习遇到的问题时,重要的两点就是:
1.利用学习曲线判断增加数据量是否有用;
2.如果是需要增加数据量,那么就会想如果增加10倍的数据量需要花多少工作,
4.天花板分析:下一步工作的 pipeline