Stanford 机器学习笔记 Week11 Application Example: Photo OCR

最新推荐文章于 2022-12-05 10:44:04 发布

Baoli1008

最新推荐文章于 2022-12-05 10:44:04 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Baoli1008/article/details/51088833

版权

机器学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

Photo OCR

Problem Description and Pipeline

OCR： Optical Character Recognition
步骤：
1.识别包含文字的图片区域
2.将每块图片中的各个文字分隔开
3.对每个文字进行识别

这种算法流程被称为pipeline，前一个模块的输出是下一个模块的输入。

Sliding Windows

本节分别介绍一下上述三个步骤的实现过程：

1.Text Detection：
这里先介绍一个简单的问题：图片中行人的识别。因为现实生活中每个人像的宽高比基本相同，所以这是一个简化版问题。使用机器学习解决，假设所有人像大小都是82*36的，那么训练集为许多张这个大小的图片，一些是人像，一些不是，这是一个监督型问题。
训练得到模型后，给定一张新图片，使用一个82*36大小的窗口依次遍历整张图片，并使用模型判断当前窗口中是否为行人。由于还涉及到近大远小，可以等比例放大窗口再次遍历，之后缩小为82*36来判断。

这个算法也可应用于Test Detection。每个字母的大小基本相同，遍历得到可能是字母的所有区域后，将相邻的区域连接起来视为一块（一个单词），最后把那些仍只有一个字母的区域排除（误判为字母的可能性大）。

2.Character Segmentation：
对于上一步得到的每个单词，使用机器学习做分割。这次的训练集图片不是字母，而是两个字母相邻中间的分割空白（不同字母间的空白基本相同，更适合训练）。

3.使用机器学习对分割完的每个字母做判断。

Getting lots of data: Artificial data synthesis

在寻找更多图像做数据时，我们可以利用已有数据构造，几个简单的方法：
1.给图像中的元素更换背景。
2.扭曲图像
3.旋转图像

想办法使你构造的数据更真实

Ceiling analysis: What part of the pipeline to work on next

单元测试：
假设你的pipeline分为4个部分。测试每个部分提高的潜力的方法：

1.计算当前算法系统整体精确度。
2.手动使该部分精确度为100%（该部分直接按训练集中的label输出），再次计算精确度。
3.计算两精确度之差，这就是该模块的潜力。

应优先优化潜力高的模块。

Summary and Thank You

历时11周，终于跟完了这门课，对ML有了一个入门级的认识，接下来要投入更多的时间进行更深入的学习。

Andrew Ng真是非常nice，一张图：
这里写图片描述

Thank you!

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Baoli1008 CSDN认证博客专家 CSDN认证企业博客

码龄10年

293: 原创

13万+: 周排名

34万+: 总排名

65万+: 访问

: 等级

6875: 积分

69: 粉丝

159: 获赞

32: 评论

285: 收藏

私信

关注

热门文章

分类专栏

数据结构 63篇
水题 43篇
贪心 4篇
图论 31篇
搜索 32篇
数论 15篇
dp 31篇
模拟 17篇
普林斯顿大学MOOC algorithm 1 2篇
计算几何 11篇
python 8篇
linux 5篇
数学 28篇
字符串 16篇
MacOX
JAVA
汇编语言 4篇
minisat 2篇
C++ 4篇
MFC 1篇
Numpy 2篇
机器学习 23篇
Octave 6篇
机器学习实战 1篇
Github 1篇
pandas 2篇

最新评论

补码运算中的溢出
做而论道_CS: 在计算机系统中，正负数值，一律采用补码表示和存储。数值、补码，直接转换即可，无须讨论原码反码。补码的运算，与一般二进制的运算相同。但是，补码运算时，不包括进位位。补码运算的结果，一旦超出表达范围，就是溢出。溢出的表现是：三个符号位，不符合正确的关系。判断是否溢出，看三个符号就行了，不用看原码反码。如：085h + 9ch 　= 1000 0101b + 1001 1100b 　= (1) 0010 0001b 两个负数相加，和，却是正数！不符合正常逻辑，这就是溢出了。又：0e7h + 0b3h 　= 1110 0111b + 1011 0011b 　= (1) 1001 1010b 两负数相加，和，依然是负数。无异常，这就没有溢出。溢出，与进位位，并无关系。与原码，更没有关系。归结起来，补码的溢出判断规则就一句话：同符号数相加，结果的符号位和两加数不同，既是溢出。完全正确。
Python 动态生成变量名
print_bookcase: 怎么用一个类创建多个对象，好几十个那种
Python 动态生成变量名
残存的影子: 文件分割
Python 动态生成变量名
这样啊812: 你调用什么情况需要调用这么多?
Python 动态生成变量名
残存的影子: 写的不明白啊,那我调用呢?还是要一个个写? 还要从1写到100?,那我要他有何用

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。