吴恩达机器学习笔记(十二) —— Application Example: Photo OCR(完)

 

 

主要内容:

一.Photo OCR

二.Getting lots of data:artificial data synthesis

三.Ceiling analysis

 

 

一.Photo OCR

Photo OCR就是从图片中提取文本或者需要的数据,其具体步骤可分三个:

 

第一步:Text detection or pedestrain detection

采用的方法是,sliding windows。即设置一个大小固定的窗口去扫描增长图片,以次去检测文字(文字检测稍微复杂)或者行人。当然由于字体或者人因远近而大小不一,需要不断地调整窗口的大小。

 

第二步:隔断文字。同样是采用一个窗口从左往右取扫描文字区域,当滑动到两个文字中间时,y设为1;当滑动到一个文字时,y设为0。

 

第三步,直接将分割出的文字进行分类:

 

 

二.Getting lots of data:artificial data synthesis

当我们手头上的数据不够多时,可以利用已有的数据做一些变形或扭曲的操作,从而人工合成大量且可靠的数据。

例如,对一个字母A做适当的扭曲:

或者对音频加噪音、设置不同的背景(如电话、山洞等):

 

下面是有关“获得更多数据”的一些讨论:

 

 

三.Ceiling analysis

在Photo OCR的整个过程中,我们想知道:哪个环节的改进对于最终结果的影响是最大的?以此避免做一些无用功,如我们花很多时间去改进某一环节,但这个环节的改进对于最终结果的影响是微乎其微的。因此,这里引入一个方法:ceiling analysis。

其核心思想是:将某一部分的精度提升为100%(可以是人工操作),然后看最终的准确率提升了多少。当然,在检测完前面的环节后,需保持前面环节100%的准确率,再去检测后面的环节。(疑问:问什么不能只把要检测的环节提升至100%?)

 

转载于:https://www.cnblogs.com/DOLFAMINGO/p/9385567.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值