吴恩达-机器学习(11)-文字识别

Application example: Photo OCR

Problem description and pipeline

Photo OCR表示照片光学字符识别,主要解决的问题就是让计算器识别照片中的文字
主要步骤

Sliding windows

由于行人的形状大小相似,以行人检测为例子来说明滑动窗

在图片中选取一小块,使用训练好的分类器进行检测,下面是以8236为例,然后滑动窗口继续进行检测,滑动距离称为步长
然后选取更大的块,压缩到82
36进行检测


对于文字检测后,会得到左下图,白色的亮度表示概率,然后使用展开器,将白色的笑点扩展为一块

字符分割

Getting Lots of Data and Artificial Data

采集数据时,一个方法是采集同一字符的不同字体,然后放在不同的背景下,这就可以生成大量的样本数据

另一个方法就是选取真实的样本,然后对图像进行人扭曲或变形

Ceiling Analysis: What Part of the Pipeline to Work on Next

上限分析:当团队在进行开发机器学习系统是,可以提供很有用的导向,告诉你哪个部分最值得去花费时间
上限分析的主要思想:关注第一个模块,认为的提供正确的文字检测的结果,然后继续运行后面的模块,观察系统的准确率,这样就可以知道每一个模块的改善,对于整体的系统有多大的提升

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值