18.人工观测数据集和模型调参数据集多大合适 翻译自 吴恩达新书-Machine Learning Yearning

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费?.

人眼观察
人工观测数据集应该设置的足够大,这样方便你找到主要的错误类别。如果你在一项工作,这项工作人类可以完成的很好(比如识别图片中的猫),这有些粗略的指导准则:

• 如果在人类观测数据集上只产生了10个错误,则这个错误的数量太少了,用这10个错误,很难精确评估出不同类别错误的影响。但是如果数据量本身就比较少,而且无法投入更多的成本在人工观测数据集上,那么有总比没有好,这10个错误,也可以帮助你划分工作的优先级。

• 如果你的分类器在人工观测数据集上产生了20个错误,那么你就可以粗略的估计错误的来源了。

• 如果产生了50个错误,那么你就可以很好的找到错误的来源了。

• 如果产生了100个错误,那么你就可以更好的理解错误的来源。据我所知,人们往往会手工分析更多的错误,有时会多大500个。当你有足够多的数据时,这时一个不错的选择,这么做只有好处没有坏处。

如果说你的分类器有5%的错误率,为了在人工观测样本集上找到100个错误样本,你需要在人工观测样本集中放置2000个样本(因为0.05*2000=10)。为了得到足够多的错误样本,分类器的错误率越低,仍共观测的数据集就要越大。

如果你在做一项人类无法很好完成的工作,这时在人工观测样本集上做实验作用就没那么大了。因为人类很难分辨错误分类的原因。这种情况下,你可以忽略人工观测样本集。

我们将在后面的章节,讨论这些问题的处理准则。
黑盒数据集
模型调参(黑盒)数据集, 我们之前说过开发数据集中通常包含1000到10,000个样本。经过更多的数据也没什么坏处,但1000到10,000个样本的模型调参数据集完全足够我们进行参数调优和模型选择了。用于100个样本的模型调参数据集可能有些小,但是以然可用。

如果你的开发数据集比较小,可能没法无法将其分割成两个数据集,以满足手工调测数据集和模型调参数据集的需求。此时,你可以将所有的数据都用做人工调测数据集,这时你需要手工处理所有的开发数据集样本。

在人工调测数据集和模型调测数据集中,我认为人工调测数据集更加重要一些(假设你在处理一个人类能很好完成的工作,通过实验可以让你更加清楚的看成问题所在),如果你只有人工观测数据集,那么你可以在这个数据集上进行误差分析、模型选择、参数调优。只有人工调测数据集的缺点是更容易产生过拟合的现象。

如果你有足够多的数据,那么人工观测数据集的大小取决于你有多少时间来进行手工分析。例如,我很少看到有人手工分析1000个以上的错误数据。

更多好玩的机器学习教程: 进入袋马学院领一份 ,全部免费?.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值