Photo OCR

本文介绍了Andrew Ng机器学习课程中关于图像识别的内容,包括PhotoOCR技术介绍、滑动窗口方法用于行人及文字检测系统,以及如何通过增加大量数据或人工数据来改善模型表现。最后讨论了如何通过上限分析确定下一步优化的方向。
摘要由CSDN通过智能技术生成

Photo OCR

本篇博客将会对andrew ng机器学习的最后一章进行描述。最后一章是将会是图像识别的应用。photo ocr 是指照片光学字符识别。

1. problem description and pipeline

照片光学字符识别流程图

2. sliding windows(滑动窗)

滑动窗是一种分类器。
用滑动窗的方法来建立一个行人分类器,先找到一些有行人的图片和一些没行人的图片训练模型,之后再输入测试集进行测试。
文字检测的系统也是如此。先训练模型,在进行应用。

3.Getting lots of data and artifical data

在现有的数据集中引入一些噪声或者变形,来进行人工数据。
得到数据的方式
得到数据的方式主要有两种,一是直接合成数据,二是在已有数据的基础之上引入噪声或者变形来得到新的数据。
在解决某个机器学习的问题之前。首先考虑两件事。一是利用学习曲线进行合理性检查,看看是否更多的数据对算法的学习是否有效。二是考虑合成10倍数据的时间是否在预期之内。

4. Ceiling Analysis:What Part of the Pipeline to work on next

本小节将会看看调整哪个模块,整个系统的准确率会提升较快,较大。即上限分析。
上限分析
由上图可知,修改某个阶段的机器学习算法,整个系统的准确度的提升是不一样的。一般花费时间在能很快提升准确率的阶段。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值