吴恩达深度学习笔记(64)-开发集和测试集的大小分配

最新推荐文章于 2024-07-31 20:22:27 发布

极客Array

最新推荐文章于 2024-07-31 20:22:27 发布

阅读量478

点赞数

分类专栏：吴恩达深度学习笔记深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Harpoon_fly/article/details/87022036

版权

本文探讨了在深度学习时代，开发集和测试集的大小分配。传统上，数据通常按70/30或60/20/20比例划分，但在大规模数据集情况下，更常见的是将98%作为训练集，1%作为开发集，1%作为测试集。测试集的主要目标是评估系统性能，其大小应足以提供高置信度的评估。在某些情况下，如果开发集足够大，甚至可以省略独立的测试集。

摘要由CSDN通过智能技术生成

标题开发集和测试集的大小（Size of dev and test sets）

在上一个笔记中你们知道了你的开发集和测试集为什么必须来自同一分布，但它们规模应该多大？在深度学习时代，设立开发集和测试集的方针也在变化，我们来看看一些最佳做法。

吴恩达深度学习笔记(64)-开发集和测试集的大小分配
你可能听说过一条经验法则，在机器学习中，把你取得的全部数据用70/30比例分成训练集和测试集。

或者如果你必须设立训练集、开发集和测试集，你会这么分60%训练集，20%开发集，20%测试集。

在机器学习的早期，这样分是相当合理的，特别是以前的数据集大小要小得多。所以如果你总共有100个样本，这样70/30或者60/20/20分的经验法则是相当合理的。如果你有几千个样本或者有一万个样本，这些做法也还是合理的。

但在现代机器学习中，我们更习惯操作规模大得多的数据集，比如说你有1百万个训练样本，这样分可能更合理，98%作为训练集，1%开发集，1%测试集，我们用D和T缩写来表示开发集和测试集。

因为如果你有1百万个样本，那么1%就是10,000个样本，这对于开发集和测试集来说可能已经够了。所以在现代深度学习时代，有时我们拥有大得多的数据集，所以使用小于20%的比例或者小于30%比例的数据作为开发集和测试集也是合理的。

而且因为深

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。