文章目录
Application example: Photo OCR
Problem description and pipeline
Photo OCR表示照片光学字符识别,主要解决的问题就是让计算器识别照片中的文字
主要步骤
Sliding windows
由于行人的形状大小相似,以行人检测为例子来说明滑动窗
在图片中选取一小块,使用训练好的分类器进行检测,下面是以8236为例,然后滑动窗口继续进行检测,滑动距离称为步长
然后选取更大的块,压缩到8236进行检测
对于文字检测后,会得到左下图,白色的亮度表示概率,然后使用展开器,将白色的笑点扩展为一块
字符分割
Getting Lots of Data and Artificial Data
采集数据时,一个方法是采集同一字符的不同字体,然后放在不同的背景下,这就可以生成大量的样本数据
另一个方法就是选取真实的样本,然后对图像进行人扭曲或变形
Ceiling Analysis: What Part of the Pipeline to Work on Next
上限分析:当团队在进行开发机器学习系统是,可以提供很有用的导向,告诉你哪个部分最值得去花费时间
上限分析的主要思想:关注第一个模块,认为的提供正确的文字检测的结果,然后继续运行后面的模块,观察系统的准确率,这样就可以知道每一个模块的改善,对于整体的系统有多大的提升