吴恩达深度学习笔记(64)-开发集和测试集的大小分配

本文探讨了在深度学习时代,开发集和测试集的大小分配。传统上,数据通常按70/30或60/20/20比例划分,但在大规模数据集情况下,更常见的是将98%作为训练集,1%作为开发集,1%作为测试集。测试集的主要目标是评估系统性能,其大小应足以提供高置信度的评估。在某些情况下,如果开发集足够大,甚至可以省略独立的测试集。
摘要由CSDN通过智能技术生成

标题开发集和测试集的大小(Size of dev and test sets)

在上一个笔记中你们知道了你的开发集和测试集为什么必须来自同一分布,但它们规模应该多大?在深度学习时代,设立开发集和测试集的方针也在变化,我们来看看一些最佳做法。

吴恩达深度学习笔记(64)-开发集和测试集的大小分配
你可能听说过一条经验法则,在机器学习中,把你取得的全部数据用70/30比例分成训练集和测试集。

或者如果你必须设立训练集、开发集和测试集,你会这么分60%训练集,20%开发集,20%测试集。

在机器学习的早期,这样分是相当合理的,特别是以前的数据集大小要小得多。所以如果你总共有100个样本,这样70/30或者60/20/20分的经验法则是相当合理的。如果你有几千个样本或者有一万个样本,这些做法也还是合理的。

但在现代机器学习中,我们更习惯操作规模大得多的数据集,比如说你有1百万个训练样本,这样分可能更合理,98%作为训练集,1%开发集,1%测试集,我们用D和T缩写来表示开发集和测试集

因为如果你有1百万个样本,那么1%就是10,000个样本,这对于开发集和测试集来说可能已经够了。所以在现代深度学习时代,有时我们拥有大得多的数据集,所以使用小于20%的比例或者小于30%比例的数据作为开发集和测试集也是合理的。

而且因为深

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值