机器学习：训练集，验证集和测试集

机器不学习我学习

于 2019-07-16 10:30:11 发布

阅读量3.4k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AugustMe/article/details/96106071

版权

机器学习专栏收录该内容

32 篇文章

订阅专栏

本文介绍监督学习中训练集、验证集与测试集的作用及划分比例。解释如何通过这三个数据集选择最佳模型并评估其性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在机器学习中的监督学习算法，通常将原始数据划分为训练集，验证集和测试集，划分的比例一般为60%：20%：20%，对原始数据三个数据集的划分，是为了能够选出模型效果最好的（准确率等指标）、泛化能力最佳的模型。

1、训练集（training set）
作用：用来拟合模型，通过设置分类器的参数，训练分类模型。（训练出多个分类模型，同一参数不同取值的模型）

2、验证集（cross validation set）
作用：通过训练集训练出多个模型后，为了找出效果最好（例如，均方误差最小）的模型，使用各个模型对验证集数据进行预测，并记录模型准确率。选出效果最好的模型所对应的参数（神经网络中隐藏单元数）。
总结：用来调整模型参数。

3、测试集（test set）
通过训练集和验证集得出模型后，使用测试集进行模型预测。
最终用测试集来衡量模型的性能，对模型进行评估。

从某种角度讲，对原始数据进行三个类别数据集的划分，也是为了防止模型过拟合。当我们使用原始数据去训练模型时，得到的结果很可能是该模型最大程度地拟合了原始数据，也就是说，该模型对原始数据的分类很准确，但是，当新样本出现时，用该模型进行测试，效果十分的差（也就是模型的泛化能力差，出现了过拟合），还不如用原始数据的一部分进行训练。

延伸：什么是过拟合？如何防止机器学习中的过拟合？
请见我的下一篇博文。

参考和引用：

https://blog.csdn.net/kieven2008/article/details/81582591

https://blog.csdn.net/Neleuska/article/details/73193096

https://www.cnblogs.com/june0507/p/7600912.html

仅用来个人学习和分享，如若侵权，留言立删。

尊重他人知识产权，不做拿来主义者！

喜欢的可以关注我哦QAQ，

你的关注就是我write博文的动力。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

机器不学习我学习 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。