Machine Learning|吴恩达 (11)- 图片OCR,上限分析,课程总结

Photo OCR

pipeline
-Text detction(slide window)
-Character segmentation
-recognition(character classification)

Artificial Data

又称为数据增强,人工的制造‘假’数据
-扭曲、变形(模仿人手写字的‘弹性扭曲’)
-减噪与增噪
-添加背景
在决定获取更多数据前,我们首先要确认:
1)确认你的分类器是低偏差的。(例如:增加神经网络隐藏单元的数目直到你的分类器成为低偏差的形态。)
2)“我们要付出多少工作,来获得10倍于我们现有的数据量?”
- 合成人工数据
- 自行收集/标记数据
- 数据众包(crowd source,e.g. Amazon Mechanical Turk)

ceiling Analysis 上限分析(工程方法)

例如在photo ocr pipeline案例中
image -> Text detection ->Character segmentation -> Character recogition 4个工作模块中。系统总体正确率为72%。我们从第二模块开始将测试数据设定成完全正确,查看只执行其余模块时系统总体的正确率。
这里写图片描述
例如上图:说明提升Text Detection模块对我们系统总体正确率提升最大。(设定Text Detection为全正确前,系统正确率72%,设定全正确后,系统正确率89%。说明正确率可以提升17%。另外,系统剩余两模块合计对系统正确率提升的作用只有11%)
改进Character segmentation模块对提升系统正确率的作用最小:提升1%
改进Character recogition模块对提升系统正确率的作用:提升10%

课程回顾

有监督学习(supervised learning)
- 线性回归
- 逻辑回归
- 神经网络
- SVM支持向量机

无监督学习
-K-means
-PCA主成分分析
-异常检测(Anomaly detection)
特别专题
-推荐系统
-大规模机器学习(large scale machine learning)
建立机器嘘唏系统的建议
-高偏差/方差的情况
-正则化(regularization)
-如何决定下一步该做什么
-学习算法的评估
-学习曲线
-误差分析
-上限分析(ceiling analysis)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值