《机器学习-吴恩达》课程笔记Week11

最新推荐文章于 2024-08-07 20:55:33 发布

SofiaT

最新推荐文章于 2024-08-07 20:55:33 发布

阅读量114

点赞数

分类专栏：机器学习-吴恩达笔记文章标签：计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SofiaT/article/details/125068942

版权

机器学习-吴恩达笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Application Example: Photo OCR

Photo OCR

介绍ocr项目，用来引入如何做一个大型的ml system，以及计算机视觉问题中ml的应用和人工数据合成。

Problem Description and Pipeline

Photo optical character recognition（照片光学字符识别），一般流程为：

在图像中识别字符位置
在字符对应区域中分割字符为一个个字母/汉字
字符识别
拼写纠错

通常会把每个步骤模块化/组件化，很多ml system为如何设计这些组件的组合。

Sliding Windows

第一个模块识别字符位置（Text detection），先介绍行人检测作为引入。

收集只包含行人的正样本（行人占图像的比例达到一定值），以及不包含行人的负样本
监督式学习，如神经网络等对数据进行训练，得到某size图像中是否包含行人的模型
对图片进行扫描，分区块检测是否包含行人，然后平移一个step size/slide parameter
设定更大一点的image patches，再次扫描。重复这个步骤多次。

字符块识别与之类似，样本为单个字母，所以需要增加一个步骤把识别到的单个字母合并为一个字符串区域（an expansion operator）：

第二个模块，划分字符（character segmentation），处理过程与第一个模块类似，样本为两个字符中间是否有划分。扫描字符块并判断：

第三个模块，字符识别（character qualification），之前的课程中有介绍。

Getting Lots of Data and Artificial Data

如sliding windows中介绍的，supervised learning需要大量的样本（low bias+big data set性能较好），这里介绍人工数据合成（artificial data synthesis）来得到数据样本。它包含两个方法，从头合成数据，数据增强。

对于ORC问题，可以从不同的字体库中合成数据，然后做一些仿真操作（把字符粘贴在不同明度的背景上/模糊化/旋转或扭曲等），就可以得到极多的正样本数据。

数据增强可以通过扭曲（distortion）操作：

而如何扭曲也是需要设计的，增加扭曲后的数据最好符合当前场景的需要，是有实际意义的扭曲。例如对于语音识别，扭曲可以为增加背景音/电流音。

在扩大数据集前，有以下几个建议：

确保当前模型是low bias的，这样增大数据集才有意义
评估不同的方法把数据集扩大十倍，它们所需的工作量，如以下三种：

Ceiling Analysis：What Part of the Pipeline to Work on Next

ceiling analysis：评估piplines工作中哪个part的提升是最有效的。

当我们已经构建好一个ml system时，还需要对当前系统进行优化。对每个模块都做数字化评分测试，然后模拟某些前置模块是完美运行的，看系统评分的提升最大的是什么样的模拟。

选择优化提升上限高的模组。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习-吴恩达》课程笔记Week11

Photo OCR介绍
复制链接

扫一扫

专栏目录

博客等级

码龄8年

51
原创

12
点赞

80
收藏

2
粉丝

关注

私信

热门文章

分类专栏

最新评论

论文管理工具：Zotero使用心得
SofiaT: 今天使用时发现有个小问题：在把记录的条目导出到别的设备上的Zotero中时，笔记中存的图片会消失……
transE论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。
NEIL: Extracting Visual Knowledge from Web Data 论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。
多模态知识图谱构建系统论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。