机器学习——什么时候需要显式的划分出“验证集”

最新推荐文章于 2024-06-11 13:28:17 发布

JiaShengLiu111

最新推荐文章于 2024-06-11 13:28:17 发布

阅读量2.8k

点赞数 5

分类专栏：数据集划分 ML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liu111111113/article/details/81563165

版权

ML 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

数据集划分

2 篇文章 0 订阅

订阅专栏

所谓的显式的划分出“验证集”，其实就是显式的将数据集划分为“训练集”、“验证集”、“测试集”。但是假如要使用k折交叉验证来为模型进行超参数调优而言，是不需要显式的将数据集划分出“验证集”的。

当数据集的整体比较小时，常常需要使用k折交叉验证才能更加精确的评估一个模型的性能指标（因为k折交叉验证可以解决数据分布的敏感性问题），从而为模型选择比较优的超参数。使用k折交叉验证是不需要显式的从数据集中划分出“验证集”的，直接将数据集划分为“训练集”和“测试集”即可，在训练集上进行交叉验证从而对模型的超参数进行寻优。得到模型的最优超参数之后，使用训练集喂给模型从而训练出分类器，最后使用测试集测试分类器的性能。

关于使用交叉验证之后，是否还需要单独分出测试集问题？

网址：https://www.cnblogs.com/sddai/p/8378167.html给了较好的解答。有两种思路：

思路一，不使用独立的测试，直接在整个数据上进行k折交叉验证，从而得到模型的最优超参数。同时将k折交叉验证的预测精度作为模型的预测精度。

思路二、将数据分为训练集和测试集两部分，在训练集上进行k折交叉从而得到模型的最优超参数。然后使用整个训练集结合最优超参数训练出分类器。最后使用测试模型在测试集上的预测精度。

两种思路没有本质的对错之分，但是本人更加推荐思路二，思路二使用了测试集，该集合和模型本身完全独立、无关，显然能够更好的评估模型的泛化能力。思路一中使用k折交叉验证的预测精度作为模型的预测精度，是存在误差的，交叉验证的预测精度通常高于模型真实的预测精度。

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
机器学习——什么时候需要显式的划分出“验证集”

所谓的显式的划分出“验证集”，其实就是显式的将数据集划分为“训练集”、“验证集”、“测试集”。但是假如要使用k折交叉验证来为模型进行超参数调优而言，是不需要显式的将数据集划分出“验证集”的。当数据集的整体比较小时，常常需要使用k折交叉验证才能更加精确的评估一个模型的性能指标（因为k折交叉验证可以解决数据分布的敏感性问题），从而为模型选择比较优的超参数。使用k折交叉验...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。