机器学习：训练集、验证集、测试集分配比例

最新推荐文章于 2025-04-08 10:08:17 发布

Chris Kang

最新推荐文章于 2025-04-08 10:08:17 发布

阅读量3.9w

点赞数 18

分类专栏：机器学习文章标签：机器学习数据集划分

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyuankl123/article/details/102496190

版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

根据《统计学习方法》中的观点：
“如果给定的样本数据充足，进行模型选择的一种简单方法是随机地将数据集切分成三部分，分别为训练集（training set）、验证集（validation set）和测试集（test set）。训练集用来训练模型，验证集用来模型选择，而测试集用于最终对学习方法的评估。”

训练集较小

如果数据集较小时，一般采用简单交叉验证的方法，即不设置验证集，而只设置训练集和测试集，根据西瓜书的观点，训练集和测试集的比例设置一般为 2:1 ~ 4:1 。根据目前我所看到的方法，大多数人将比例设置为7:3。

训练集较大

如果数据量较大时（有人说是数据集以万为单位），一般训练集、验证集、测试集的分配比例为 6:2:2。

训练集非常大

如果数据量更大时，例如百万级的数据集，一般划分比例在 98:1:1 以上（即根据情况再提高训练集的占比）。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。