大家好,我是Mac Jiang,今天和大家分享的是Coursera-Stanford University-Machine Learning-Week 11:Application:Photo OCR的课后习题解答。虽然我的答案通过了系统测试,但是有些分析可能是错误的。各位博友如果发现错误,请留言纠正,谢谢。希望我的博客能给大家带来一些学习上的帮助!
这周的课程中,老师主要讲了四个方面的内容:
(1)照片光字符识别-Photo OCR。给定一张图片,要求识别图片中的字符,可以分为三步:字符信息定位,字符切割,字符识别。这三个部分形成一个机器学习流水线(pipeline),可以让不同开发小组进行不同的分工。对于字符信息定位和字符切割,提供了一种滑动窗的方法。
(2)滑动窗(sliding windows)。滑动窗是对图片中物体定位的一种方法,他的思想是在图片中截取固定大小的块,导入到已经学习好的系统中,判断这块有没有需要定位的物体。当检测完当前块后,可以滑动窗口,进行下一块的检测。华东窗的大小可以变化,但比例一般不变,对于不同大小的滑动窗,只要把它压缩到我们学习算法所需要的图片大小就可以了。
(3)人工数据合成(artificial data synthesis)。对于低偏差的机器学习算法,我们需要大量数据对系统进行训练,所以我们需要大量样本数据,这就可以用人工数据合成的方法。人工数据合成的方法可以分为两类,第一类:无任何起始数据,可以通过从网上下载不同数据库,加不同背景的方法实现;第二类