k折交叉验证优缺点_【机器学习】训练集，验证集，测试集；验证和交叉验证...

最新推荐文章于 2024-03-01 22:08:53 发布

呼呼啦啦就瘸了

最新推荐文章于 2024-03-01 22:08:53 发布

阅读量4.9k

点赞数 6

文章标签： k折交叉验证优缺点

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35988311/article/details/112540577

版权

本文介绍了在机器学习中模型验证的四种常见方法：全训练集验证、训练集-测试集验证、训练集-验证集-测试集验证和交叉验证。强调了验证集和测试集的重要性，以及k折交叉验证在数据量有限时的优势。同时，讨论了超参数优化和模型选择，并提醒在数据预处理时应在交叉验证过程中进行。

摘要由CSDN通过智能技术生成

训练集，验证集，测试集（以及为什么要使用验证集？）（Training Set, Validation Set, Test Set）www.cnblogs.com

验证和交叉验证（Validation & Cross Validation）www.cnblogs.com

在机器学习中，当我们把模型训练出来以后，该怎么对模型进行验证呢？（也就是说怎样知道训练出来的模型好不好？）有以下几种验证方式：

第一种方式：把数据集全部作为训练集，然后用训练集训练模型，用训练集验证模型（如果有多个模型需要进行选择，那么最后选出训练误差最小的那个模型作为最好的模型）

这种方式显然不可行，因此训练集数据已经在模型拟合时使用过了，再使用相同的数据对模型进行验证，其结果必然是过于乐观的。如果我们对多个模型进行评估和选择，那么我们可以发现，模型越复杂，其训练误差也就越小，当某个模型的训练误差看似很完美时，其实这个模型可能已经严重地过拟合了。（我们把这种由训练误差选出来模型称为gm-hat）

第二种方式：把数据集随机分为训练集和测试集，然后用训练集训练模型，用测试集验证模型（如果有多个模型需要进行选择，那么最后选出测试误差最小的那个模型作为最好的模型）

什么样的模型是好的？显然泛化误差最小的模型最好，但是我们没有这样的测试集能够测出模型的泛化误差。因此，我们把一部分数据作为测试集，用它的误差来模拟泛化误差。

把数据分出一部分作为测试集意味着训练集比原来小了。由学习曲线可知，使用较少的数据训练出来的模型，其测试误差会比较大。因此，对于多个模型的评估和选择，合理的做法是：用训练集训练出各个模型后，用测试集选出其中最好的模型（我们把此模型称为gm*-），记录最好模型的各项设置（比如说使用哪个算法，迭代次数是几

最低0.47元/天解锁文章

呼呼啦啦就瘸了

关注

6
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
k折交叉验证优缺点_【机器学习】训练集，验证集，测试集；验证和交叉验证...

训练集，验证集，测试集（以及为什么要使用验证集？）（Training Set, Validation Set, Test Set）www.cnblogs.com验证和交叉验证（Validation & Cross Validation）www.cnblogs.com在机器学习中，当我们把模型训练出来以后，该怎么对模型进行验证呢？（也就是说怎样知道训练出来的模型好不好？）有以下几种验证方...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。