#Photo OCR
Photo Optical Character Recognition(照片光学字符识别),注重的问题是如何让计算机读出图片中的文字信息。
1、给定某种图片,它将图像扫描一遍,然后找出照片中的文字信息;
2、重点关注这些文字区域,进行文字分离,并对区域中的文字进行识别;
3、用一个分类器对这些可见字符进行识别。
将像这样的一个系统称为machine learning pipeline(机器学习流水线)。
#Problem description and pipeline(问题描述和OCR流水线)
- 在很多复杂的机器学习系统中,这种流水线形式非常普遍,在流水线中会有多个不同的模块,每个模块都是一个machine learning component(机器学习组件)。
如果要设计一个机器学习系统,要作出的最重要的决定之一就是要怎样设计这个流水线的各个模块,需要设计整个流水线以及流水线中的每一个模块,这通常会影响到算法最终的表现。