K折交叉验证处理数据！

最新推荐文章于 2024-09-07 22:16:25 发布

木子偉

最新推荐文章于 2024-09-07 22:16:25 发布

阅读量1.6k

点赞数 3

文章标签： python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43774897/article/details/89340450

版权

本文介绍了在机器学习中，由于数据点有限，导致训练集和测试集划分可能影响模型评估的可靠性。为此，提出了K-折交叉验证方法，详细解释了其原理，并通过Python的sklearn库展示了其实现过程。最后，讨论了K折交叉验证的关键参数，如n_splits、shuffle和random_state，并提供了一个实际案例的交叉验证代码示例。

摘要由CSDN通过智能技术生成

机器学习（Machine Learning）与深度学习（Deep Learning）的相关研究中，经常会将数据集（dataset）划分为训练集（training set）跟测试集（testing set）这两个子集，训练集用以建立模型（model），测试集则用来评估该模型对未知样本进行预测时的精确度，正规的说法是模型的泛化能力（generalization ability）。
但是有时候我们的数据点少，训练集和测试集就会很少，因此模型结果可能会有很大波动。也就是说，训练集和测试集的划分方式可能会对模型产生很大影响，这就无法对模型进行可靠评估。
在样本量不充足的情况下，为了充分利用数据集对算法效果进行测试，将数据集随机分为k个小数据集，每次将其中一个小数据集作为测试集，剩下k-1个小数据集作为训练集进行训练，这就是K-折交叉验证

注意：当你把原始数据的训练集和测试集都划分好了之后，做K折交叉验证需要在原来的训练集上做，得出相关的结论，再在测试集上看结果。

下面上图让大家直观了解下：

最低0.47元/天解锁文章

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。