Week 11:Application：Photo OCR课后习题解答

最新推荐文章于 2022-02-24 22:07:43 发布

Mac Jiang

最新推荐文章于 2022-02-24 22:07:43 发布

阅读量4.9k

点赞数 4

分类专栏： Mac Jiang的机器学习专栏文章标签： Coursera 机器学习 Week-11 光字符识别

本文链接：https://blog.csdn.net/a1015553840/article/details/50939502

版权

本文介绍了Coursera上斯坦福大学机器学习课程第11周关于Photo OCR的课后习题解答。内容涵盖滑动窗方法、人工数据合成、上限分析等，并对题目进行了详细分析和解答。

摘要由CSDN通过智能技术生成

大家好，我是Mac Jiang,今天和大家分享的是Coursera-Stanford University-Machine Learning-Week 11:Application:Photo OCR的课后习题解答。虽然我的答案通过了系统测试，但是有些分析可能是错误的。各位博友如果发现错误，请留言纠正，谢谢。希望我的博客能给大家带来一些学习上的帮助！

这周的课程中，老师主要讲了四个方面的内容：
（1）照片光字符识别-Photo OCR。给定一张图片，要求识别图片中的字符，可以分为三步：字符信息定位，字符切割，字符识别。这三个部分形成一个机器学习流水线（pipeline），可以让不同开发小组进行不同的分工。对于字符信息定位和字符切割，提供了一种滑动窗的方法。
（2）滑动窗（sliding windows）。滑动窗是对图片中物体定位的一种方法，他的思想是在图片中截取固定大小的块，导入到已经学习好的系统中，判断这块有没有需要定位的物体。当检测完当前块后，可以滑动窗口，进行下一块的检测。华东窗的大小可以变化，但比例一般不变，对于不同大小的滑动窗，只要把它压缩到我们学习算法所需要的图片大小就可以了。
（3）人工数据合成（artificial data synthesis）。对于低偏差的机器学习算法，我们需要大量数据对系统进行训练，所以我们需要大量样本数据，这就可以用人工数据合成的方法。人工数据合成的方法可以分为两类，第一类：无任何起始数据，可以通过从网上下载不同数据库，加不同背景的方法实现；第二类