机器学习——照片OCR

1、问题描述与OCR过程

照片光学字符识别 —>>> OCR
目的:让计算机识别照片中的文本信息
现状:衔阶段文档的图片识别性能很好,但是普通数码图片中的文本识别还是比较弱的
OCR实现过程:

  1. 文本区域检测
  2. 字符分离
  3. 字符识别
  4. 也可以加一些词语矫正,如: c1ean -> clean
    OCR实现过程

2、滑动窗口

文字的矩形窗大小不一样

2.1 先来介绍行人检测,因为人的长宽比是基本一致的。
训练器训练:
训练集
滑动窗口行人检测:遍历
通过滑动窗口实现人的检测

2.2 文本检测:
训练集:
训练集:
通过滑动串口检测文本可能存在的概率:然后排出奇形怪状的亮点,比如竖着的矩形,或者拐弯的矩形。
在这里插入图片描述
2.3 字符分离
能够分割字符
2.4 字符识别见神将网络的数字识别

3、和获取大量数据和人工数据

低偏差,大数据是一个很好的机器学习模型。
人工合成训练集数据合成数据时候要考虑实际的意义,不能对边改变一些现实中将不会存在的情况。
右侧为人工自己制作的
将样本扭曲
有关获得更多数据的几种方法:
1.人工数据合成
2.手动收集、标记数据
3.众包

4、上限分析

在机器学习的应用中,我们通常需要通过几个步骤才能进行最终的预测,我们如何能够知道哪一部分最值得我们花时间和精力去改善呢?这个问题可以通过上限分析来回答。
流程
流程图中每一部分的输出都是下一部分的输入,上限分析中,我们选取一部分,手工提供100%正确的输出结果,然后看应用的整体效果提升了多少。假使我们的例子中总体效果为72%的正确率。
如果我们令文字侦测部分输出的结果100%正确,发现系统的总体效果从72%提高到了89%。这意味着我们很可能会希望投入时间精力来提高我们的文字侦测部分。
接着我们手动选择数据,让字符切分输出的结果100%正确,发现系统的总体效果只提升了1%,这意味着,我们的字符切分部分可能已经足够好了。
最后我们手工选择数据,让字符分类输出的结果100%正确,系统的总体效果又提升了10%,这意味着我们可能也会应该投入更多的时间和精力来提高应用的总体表现。
投入比例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值