吴恩达机器学习笔记——获取大量数据与人工数据


更多训练样本的取得


我们可以通过对已有的真实数据集拉伸扭曲、增加噪声的引入失真方式创造更多衍生数据集。

也可以利用一些工具创造数据集,如下载各种字体人工随机放置在不同背景中。

使用众包平台。


大量数据生效的前提


而保证工具的可用性,除了提高数据集的数目,还应该预先保证模型本身的低偏差。

我们可以通过绘制学习曲线的方式检查分类器以保证我们拥有一个低偏差、高方差的分类器。

如果偏差较高,我们可以增加特征数目或神经网络隐藏单元的数量


上限分析


上限分析法可以结合工作流,给出每一个步骤模块对于提高系统整体性能的贡献情况。

我们从工作流的开始到结尾,对每一个步骤逐一给予正确数据,刷新系统整体准确率,就可以通过差值了解到哪些模块才是最值得花精力去优化的部分。

如人脸识别的过程工作流:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值