第十一周-ORC系统

最新推荐文章于 2019-05-13 21:54:22 发布

sir_TI

最新推荐文章于 2019-05-13 21:54:22 发布

阅读量338

点赞数

分类专栏： Andrew Ng-机器学习文章标签： orc pipline

Andrew Ng-机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

1图像ORC

1.1问题描述

在这一段介绍一种机器学习的应用实例照片OCR技术。我想介绍这部分内容的原因主要有以下三个，
1. 第一展示一个复杂的机器学习系统是如何被组合起来的
2. 第二介绍一下机器学习流水线（machine learning pipeline）的有关概念，以及在决定下一步做什么时，如何分配资源。
3. 最后,通过介绍照片OCR问题的机会来告诉你，机器学习的诸多有意思的想法和理念。其中之一是如何将机器学习应用到计算机视觉问题中，第二是有关人工数据合成（artificial data synthesis）的概念。

OCR技术 -主要解决的问题是让计算机读出照片中拍到的文字信息。

OCR pipeline的意思主要是把一个ML系统分割为几个连续的部分，如下图：

如果你有一个工程师的团队在完成同样类似的任务，那么通常你可以让不同的人来完成不同的模块，所以我可以假设文字检测这个模块需要大概1到5个人，字符分割部分需要另外1到5个人，字母识别部分还需要另外1到5个人。

在复杂的机器学习系统中流水线的概念已经渗透到各种应用中

1.2 滑动窗(sliding windows)

为了更好地介绍图像的检测，我们从一个简单一点的例子开始，我们先看这个探测行人的例子：

在行人检测中你希望照一张相片然后找出图像中出现的行人。

这个问题似乎比文字检测的问题更简单，原因是大部分的行人都比较相似，因此可以使用一个固定宽高比的矩形来分离出你希望找到的行人。

我们要做的是首先对这个图像取一小块长方形，比如这是一个 82×36的图像块，我们将这个图像块，通过我们训练得到的分类器来确定这个图像块中是不是有行人。如果没问题的话，我们的分类器应该报告这个图像块 y=0 因为没有行人。

做完这以后，我们再向右滑动一点窗口然后同样地把图像块传入分类器，你每次滑动窗口的大小是一个参数，通常被称为步长(step size) 。这样一个滑动的过程就叫做：滑动窗(sliding windows)。

接下来我们转向文字识别的例子，让我们来看看对于照片 OCR 流水线中要检测出文字需要怎样的步骤。
1. 第一步通过滑动窗在图像中找出有字母的部分，然后把他变白方便下一步提取。

分割字母，使用滑动窗在上一部提取的像素中提取分割的部分。

—–>
3. 第三步，字母分类。

分类哪个字母或哪26个字符A到Z。

1.3获取大量的图片

Getting Lots of Data and Artificial Data获取大量数据和人工合成数据。

要想获得一个比较高效的机器学习系统，其中一种最可靠的办法是选择一个低偏差的学习算法，然后用一个巨大的训练集来训练它。但你从哪儿得到那么多的训练数据呢？其实在机器学习中有一个很棒的想法叫做“人工数据合成”（artificial data synthesis）。就是说用一个小的训练集将它扩充为一个大的训练集，这节课中我们将对这两种方法进行介绍。

为了介绍人工数据合成的概念让我们还是用之前用过的照片OCR流水线中的字母识别问题，我们输入一个图像数据然后想识别出是什么字母。

如果你想要获得更多的训练样本，其中一种方法是你可以采集同一个字符的不同种字体，
然后将这些字符加上不同的随机背景。比如你可以取这个字母C，然后把它粘贴到一个随机背景前面。

因此通过使用合成的数据，你实际上已经获得了无限的训练样本，这就是人工数据合成。

idea2: take an existing example and and introducing distortions通过引入扭曲合成数据

注意：网格线覆盖图像只是为了说明的目的。

如果您面临机器学习问题，通常值得做两件事情：
其中一个就是头脑清楚，通过学习曲线，可以得到更多的数据。
其次，假设情况如此，请问：要获得十倍的创造数据将需要多少时间，但有时候，您可能会感到惊讶，原因可能是几天，几周甚至几天，这可以是一个很好的方式来给你的学习算法在性能上有巨大的提升。

1.4分析

Ceiling Analysis：What Part of the Pipeline to Work on Next 上限分析-接下来工作重心应放在pipeline哪个部分。

上限分析的想法：通过经历这样的分析，你试图找出什么是上升的潜力，改善这些组件的每一个，或者如果这些组件中的一个变得绝对完美，那么你可能获得多少
对该系统的性能提出了一个上限。

首先写出总的项目精度为72%；然后手工把某一个模块设置为“全对”，看模型提升了多少，提升的多说明这个工作有用；提升的少，说明在这里做工作没什么太大意义。

另外一个例子:Another more complex ceiling analysis example人脸识别。

看每一个小块的提升对总的精度提升的大小。

sir_TI

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第十一周-ORC系统

1图像ORC1.1问题描述在这一段介绍一种机器学习的应用实例照片OCR技术。我想介绍这部分内容的原因主要有以下三个， 1. 第一展示一个复杂的机器学习系统是如何被组合起来的 2. 第二介绍一下机器学习流水线（machine learning pipeline）的有关概念，以及在决定下一步做什么时，如何分配资源。 3. 最后,通过介绍照片OCR问题的机会来告诉你，机器学习...
复制链接

扫一扫

专栏目录