训练集、验证集、测试集划分

最新推荐文章于 2024-05-15 10:06:12 发布

醉糊涂仙

最新推荐文章于 2024-05-15 10:06:12 发布

阅读量3.8w

点赞数 47

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010916338/article/details/92585641

版权

机器学习专栏收录该内容

20 篇文章

订阅专栏

本文介绍了训练集、验证集和测试集的相关知识。验证集用于模型选择和调参，来自训练集再划分；测试集用于测试学习器对新样本的判别能力。还阐述了训练集和测试集的划分方法，如留出法、交叉验证、自助法，并给出不同数据量下三者的划分比例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一，搞清楚验证集

此段文字摘自《机器学习》周志华，第二章第二节评估方法。

从文中可以get到几个点：

（1）验证集和测试集不同。

（2）验证集来自训练集的再划分。

（3）验证集的划分是为了模型选择和调参

（4）测试集是用来测试学习器对新样本的判别能力，用测试误差作为泛化误差的近似值。

二，训练集和测试集划分

2.1 留出法

（1）将数据集D划分成两个互斥集合，常用的是将训练集和测试集比例选取为7:3。

（2）训练集和测试集的划分要尽可能保持数据分布的一致性。分层采样：每个类别当中也按照7:3的比例来划分。以二分类为例正例样本在训练集和测试集中的比例为7:3，反例在训练集和测试集中的比例也为7:3。

（3）留出法得到的结果往往不够稳定可靠，不同的训练集测试集划分会导致模型评估标准也会不同。一般都会进行多次随机划分，例如100次试验评估就会得到100个结果，留出法取这100个结果的平均。

2.2 交叉验证

（1）将数据集D划分成k个大小相似的互斥子集，每次都用其中k-1个子集的并集作为训练集，余下那个子集作为测试集。这样就会有k次划分，k次训练。最终结果是返回k个测试结果的均值。通常把交叉验证法称为“k折交叉验证”，k最常用的取值是10，此时称为10折交叉验证。

（2）假设数据集D中有m个样本，若令k=m，则得到交叉验证的一个特例，每个集合只含有一个元素，称为留一法（LOO）。留一法的评估结果比较准确，但是计算开销难以忍受，100万个样本需要训练100万次。

2.3 自助法

三，训练集测试集划分方式那种最好？

四，最后应该用全部数据集再训练一次

五、训练集、验证集、测试集划分比例

数据量较小（传统机器学习）

没有验证集，训练集：测试集=7：3

有验证集，训练集：验证集：测试集=6：2：2

数据量较大（大数据划分）

假设有100W条数据，只需要拿出1W条来当验证集，1W条来当测试集，就能很好地work了。

因此，在深度学习中若是数据很大，我们可以将训练集、验证集、测试集比例调整为98：1：1

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。