本文重点:
本文将学习图片的OCR问题,也就是图片字符识别技术。通过对该任务的学习,我们将掌握机器学习中的流水线概念,也就是说如何将一个机器学习问题分解为多个模块。多个模块从前到后共同完成一个机器学习任务。
照片的OCR问题
这种技术现在已经得到了广泛的应用,主要解决的问题是让计算机读出的照片中拍到的文字信息,比如微信的图片识字。
要想完成这个图片识字的最终任务,需要以下几个流程。
1.定位图片中的文字区域
2.第一步中找到的文字区域进行字符切分
3.对每一个字符进行分类,也就是说识别出每个字符是什么?
第一步
第二步
第三步
以上就是OCR系统的基本的三个步骤,像这样的一个系统,我们称它为机器学习流水线。可以用任务流程图来表达这个问题,每一个模块可以由一个团队来负责解决: