Coursera-吴恩达-机器学习-（第11周笔记）应用实例：photo OCR

最新推荐文章于 2024-07-08 08:15:02 发布

九方先生

最新推荐文章于 2024-07-08 08:15:02 发布

阅读量1.8k

点赞数 1

分类专栏： Coursera机器学习文章标签： Coursera 吴恩达机器学习 OCR

本文链接：https://blog.csdn.net/malele4th/article/details/79078615

版权

Coursera机器学习专栏收录该内容

11 篇文章 6 订阅

订阅专栏

此系列为 Coursera 网站Andrew Ng机器学习课程个人学习笔记（仅供参考）
课程网址：https://www.coursera.org/learn/machine-learning

Week 11 ——Application Example: Photo OCR

第一我想向你展示一个复杂的机器学习系统是如何被组合起来的
第二我想介绍一下机器学习流水线（machine learning pipeline）的有关概念，以及在决定下一步做什么时，如何分配资源。
最后,通过介绍照片OCR问题的机会来告诉你，机器学习的诸多有意思的想法和理念。其中之一是如何将机器学习应用到计算机视觉问题中，第二是有关人工数据合成（artificial data synthesis）的概念。

OCR技术主要解决的问题是让计算机读出照片中拍到的文字信息。
这里写图片描述
OCR pipeline的意思主要是把一个ML系统分割为几个连续的部分，如下图：

如果你有一个工程师的团队在完成同样类似的任务，那么通常你可以让不同的人来完成不同的模块，所以我可以假设文字检测这个模块需要大概1到5个人，字符分割部分需要另外1到5个人，字母识别部分还需要另外1到5个人。

在复杂的机器学习系统中流水线的概念已经渗透到各种应用中

1-2 滑动窗（sliding windows）

为了更好地介绍图像的检测，我们从一个简单一点的例子开始，我们先看这个探测行人的例子：

在行人检测中你希望照一张相片然后找出图像中出现的行人
这里写图片描述
这个问题似乎比文字检测的问题更简单，原因是大部分的行人都比较相似，因此可以使用一个固定宽高比的矩形来分离出你希望找到的行人。

我们要做的是首先对这个图像取一小块长方形，比如这是一个 82×36的图像块，我们将这个图像块，通过我们训练得到的分类器来确定这个图像块中是不是有行人。如果没问题的话，我们的分类器应该报告这个图像块 y=0 因为没有行人。

做完这以后，我们再向右滑动一点窗口然后同样地把图像块传入分类器，你每次滑动窗口的大小是一个参数，通常被称为步长(step size) 。这样一个滑动的过程就叫做：滑动窗(sliding windows)。

接下来我们转向文字识别的例子，让我们来看看对于照片 OCR 流水线中要检测出文字需要怎样的步骤。

1 第一步通过滑动窗在图像中找出有字母的部分，然后把他变白方便下一步提取。
这里写图片描述

2 分割字母，使用滑动窗在上一部提取的像素中提取分割的部分。
这里写图片描述

3 字母分类
这里写图片描述

1-3 获取大量的图片

人工合成数据
扭曲合成数据

Getting Lots of Data and Artificial Data获取大量数据和人工合成数据。

要想获得一个比较高效的机器学习系统，其中一种最可靠的办法是选择一个低偏差的学习算法，然后用一个巨大的训练集来训练它。但你从哪儿得到那么多的训练数据呢？其实在机器学习中有一个很棒的想法叫做“人工数据合成”（artificial data synthesis）。就是说用一个小的训练集将它扩充为一个大的训练集，这节课中我们将对这两种方法进行介绍。

为了介绍人工数据合成的概念让我们还是用之前用过的照片OCR流水线中的字母识别问题，我们输入一个图像数据然后想识别出是什么字母。

如果你想要获得更多的训练样本，其中一种方法是你可以采集同一个字符的不同种字体，
然后将这些字符加上不同的随机背景。比如你可以取这个字母C，然后把它粘贴到一个随机背景前面
这里写图片描述
因此通过使用合成的数据，你实际上已经获得了无限的训练样本，这就是人工数据合成。

idea2: take an existing example and and introducing distortions通过引入扭曲合成数据
这里写图片描述
注意：网格线覆盖图像只是为了说明的目的。

如果您面临机器学习问题，通常值得做两件事情：
其中一个就是头脑清楚，通过学习曲线，可以得到更多的数据。
其次，假设情况如此，请问：要获得十倍的创造数据将需要多少时间，但有时候，您可能会感到惊讶，原因可能是几天，几周甚至几天，这可以是一个很好的方式来给你的学习算法在性能上有巨大的提升。

1-4 分析

Ceiling Analysis：What Part of the Pipeline to Work on Next 上限分析-接下来工作重心应放在pipeline哪个部分。

上限分析的想法：通过经历这样的分析，你试图找出什么是上升的潜力，改善这些组件的每一个，或者如果这些组件中的一个变得绝对完美，那么你可能获得多少对该系统的性能提出了一个上限。
这里写图片描述
首先写出总的项目精度为72%；然后手工把某一个模块设置为“全对”，看模型提升了多少，提升的多说明这个工作有用；提升的少，说明在这里做工作没什么太大意义。