吴恩达机器学习笔记——照片OCR

最新推荐文章于 2023-02-28 22:08:53 发布

草莓甜Swag

最新推荐文章于 2023-02-28 22:08:53 发布

阅读量317

点赞数

分类专栏：机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39714797/article/details/87691650

版权

机器学习同时被 2 个专栏收录

14 篇文章 1 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

照片OCR流水线

照片OCR是一种可以识别图片中的文字内容的技术。

照片OCR的流水线可以分为三步：

文本识别
字符分割
字符分类识别

文本识别

给定一组正负样本进行模型训练，从照片中识别出可能是文字的区域，在结果图中，灰度越低，说明判断为文本的概率越大。

去除掉一些形状不合理的部分。使得预判为文本的地方扩大、相连。

滑动窗口

使用一个以一定步长移动的框，对框住的区域使用模型判断是否为正样本。

在本例中，当框被判断为y=1时，就说明是字母切割区域，在中间画一条切割竖线。

字符分类识别

使用字符训练集对模型进行训练，之后用于字符图片的识别。

相似案例

图片中行人的识别：

引入行人的正负样本训练集

由于不管行人距离镜头的远近，行人的长宽比类似，我们使用滑动窗口的方式，使用一定步长的不同大小的方框对图片进行扫描，将框内内容缩放或扩大到和训练集的比例一致后放入模型判断，当前内容是否为一个行人。

最终得到识别结果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习笔记——照片OCR

照片OCR流水线照片OCR是一种可以识别图片中的文字内容的技术。照片OCR的流水线可以分为三步：文本识别字符分割字符分类识别文本识别给定一组正负样本进行模型训练，从照片中识别出可能是文字的区域，在结果图中，灰度越低，说明判断为文本的概率越大。去除掉一些形状不合理的部分。使得预判为文本的地方扩大、相连。滑动窗口使用一个以一定步长移动的框，对框住的区域使用...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。