《机器学习-吴恩达》课程笔记Week11

Application Example: Photo OCR

Photo OCR

介绍ocr项目,用来引入如何做一个大型的ml system,以及计算机视觉问题中ml的应用和人工数据合成。

Problem Description and Pipeline

Photo optical character recognition(照片光学字符识别),一般流程为:

  1. 在图像中识别字符位置
  2. 在字符对应区域中分割字符为一个个字母/汉字
  3. 字符识别
  4. 拼写纠错

通常会把每个步骤模块化/组件化,很多ml system为如何设计这些组件的组合。

Sliding Windows

第一个模块识别字符位置(Text detection),先介绍行人检测作为引入。

  1. 收集只包含行人的正样本(行人占图像的比例达到一定值),以及不包含行人的负样本
  2. 监督式学习,如神经网络等对数据进行训练,得到某size图像中是否包含行人的模型
  3. 对图片进行扫描,分区块检测是否包含行人,然后平移一个step size/slide parameter
  4. 设定更大一点的image patches,再次扫描。重复这个步骤多次。

字符块识别与之类似,样本为单个字母,所以需要增加一个步骤把识别到的单个字母合并为一个字符串区域(an expansion operator): 

第二个模块,划分字符(character segmentation),处理过程与第一个模块类似,样本为两个字符中间是否有划分。扫描字符块并判断:

第三个模块,字符识别(character qualification),之前的课程中有介绍。

Getting Lots of Data and Artificial Data

如sliding windows中介绍的,supervised learning需要大量的样本 (low bias+big data set性能较好),这里介绍人工数据合成(artificial data synthesis)来得到数据样本。它包含两个方法,从头合成数据,数据增强。

对于ORC问题,可以从不同的字体库中合成数据,然后做一些仿真操作(把字符粘贴在不同明度的背景上/模糊化/旋转或扭曲等),就可以得到极多的正样本数据。

数据增强可以通过扭曲(distortion)操作:

而如何扭曲也是需要设计的,增加扭曲后的数据最好符合当前场景的需要,是有实际意义的扭曲。例如对于语音识别,扭曲可以为增加背景音/电流音。

在扩大数据集前,有以下几个建议:

  1. 确保当前模型是low bias的,这样增大数据集才有意义
  2. 评估不同的方法把数据集扩大十倍,它们所需的工作量,如以下三种:

Ceiling Analysis:What Part of the Pipeline to Work on Next

ceiling analysis:评估piplines工作中哪个part的提升是最有效的。

当我们已经构建好一个ml system时,还需要对当前系统进行优化。对每个模块都做数字化评分测试,然后模拟某些前置模块是完美运行的,看系统评分的提升最大的是什么样的模拟。

选择优化提升上限高的模组。 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值