Photo OCR
本篇博客将会对andrew ng机器学习的最后一章进行描述。最后一章是将会是图像识别的应用。photo ocr 是指照片光学字符识别。
1. problem description and pipeline
2. sliding windows(滑动窗)
滑动窗是一种分类器。
用滑动窗的方法来建立一个行人分类器,先找到一些有行人的图片和一些没行人的图片训练模型,之后再输入测试集进行测试。
文字检测的系统也是如此。先训练模型,在进行应用。
3.Getting lots of data and artifical data
在现有的数据集中引入一些噪声或者变形,来进行人工数据。
得到数据的方式主要有两种,一是直接合成数据,二是在已有数据的基础之上引入噪声或者变形来得到新的数据。
在解决某个机器学习的问题之前。首先考虑两件事。一是利用学习曲线进行合理性检查,看看是否更多的数据对算法的学习是否有效。二是考虑合成10倍数据的时间是否在预期之内。
4. Ceiling Analysis:What Part of the Pipeline to work on next
本小节将会看看调整哪个模块,整个系统的准确率会提升较快,较大。即上限分析。
由上图可知,修改某个阶段的机器学习算法,整个系统的准确度的提升是不一样的。一般花费时间在能很快提升准确率的阶段。