图像字符识别示例

最新推荐文章于 2022-04-22 16:19:34 发布

「已注销」

最新推荐文章于 2022-04-22 16:19:34 发布

阅读量1.2k

点赞数

分类专栏：机器学习笔记文章标签： coursera笔记

本文链接：https://blog.csdn.net/loveSophiaW/article/details/57130821

版权

机器学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

知识点

流水线
“滑窗”算法
获取更多数据
上限分析

解析

流水线强调分工。以图像文字识别(Photo OCR)为例，可以将分成收集图像，文字检测，字符分割和字符识别四个模块。根据项目的大小，每个模块可以由多个人合作完成，也可以一个人完成这四个模块。

“滑窗”算法用一个较小方框（滑窗）从左到右，从上到下在大图上依次滑过，标注大图中是否包含滑窗中的内容，并在大图中标记下来。可以用多个型号的滑窗标记不同大小的内容。比如，在图像文字识别中的文字检测模块中，标记出每个字符所在的位置。

获取更多数据的方法分为两种：一是收集更多的数据，二是把现有的数据通过变形得到更多的人造数据。人造数据力求做到数据仿真。比如在图像文字识别中通常做法有，适度扭曲，旋转图像；替换图片背景／前景（添加干扰信息）等做法。要在大尺度上修改，不要在小尺度上修改。比如在单像素级别上做修改得到得数据和原数据相差无几，基本上算是一个数据，这样就起不到扩充数据的效果。

上限分析是对每个模块进行分析，观察修改哪个模块可以使系统性能大幅提升，从而优化资源分配，将有限资源用到能大幅度提升性能的模块中。例如，图像文字检测机器学习分三个部分：
1. 从图像中检测出文字块的位置
2. 将文字块分割成字符块
3. 识别字符块
假设该机器学习整体准确率为72%。人工干预第1部分，使图像100%正确检测出文字块的位置，得到该机器学习的整体准确率为89%；然后人工干预第2部分，使文字快100%正确分割成字符块，得到该机器学习的整体准确率为91%；最后人工干预第3部分，使100%正确识别字符块，得到该机器学习的整体准确率为100%。这时就可以分析出，如果将第1部分做到极致，可以提高17%的整体准确率；如果将第2部分做到极致，可以提高2%的整体准确率；如果将第3部分做到极致，可以提高9%的整体准确率。这样看，第1部分有很大的潜力提升整齐准确率，要着重优化这部分算法。