交叉验证是什么？

最新推荐文章于 2024-08-10 17:38:01 发布

暮雪成冰

最新推荐文章于 2024-08-10 17:38:01 发布

阅读量7.3k

点赞数 1

分类专栏：其他

其他专栏收录该内容

48 篇文章 1 订阅

订阅专栏

交叉验证是什么？

Cross Validation是一种评估模型性能的重要方法，主要用于在多个模型中（不同种类模型或同一种类不同超参数组合）挑选出在当前问题场景下表现最优的模型（model selection）。cv主要分为以下两类：

k折，K-fold

k折交叉验证是最基本的cv方法，具体方法为，将训练集随机等分为k份，取其中一份为验证集评估模型，其余k-1份为训练集训练模型，重复该步骤k次，每次都取一份不同的子集为验证集，最终得到k个不同的模型（不是对一个模型迭代k次）和k个评分，综合这k个模型的表现（平均得分或其他）评估模型在当前问题中的优劣。

cv.png

k值的选取很有讲究，k越大，在训练集上的Bias就会越小，但训练集越大会导致Variance越大，同时花费的时间越长，所以选取适当大小的k很重要，经验值（empirical value）是k=10。
留一法，Leave one out（LOO）

留一法每次在训练集的N个样本中选一个不同的样本作为验证集，其余样本为训练集，训练得到N-1个不同的模型。LOOCV是特殊的K-fold，当K=N时，二者相同。
还有一种叫holdout，其实算不上真正的cv，流程图如下

holdout.png

这种方法受数据集分割方式的影响较大，不能较为客观的反映出模型的优劣。

为什么需要cv？

在训练集（train set）上训练得到的模型表现良好，但在测试集（test set）的预测结果不尽如人意，这就说明模型可能出现了过拟合（overfitting），bias低而variance高，在未知数据上的泛化能力差。

一个改进方案是，在训练集的基础上进一步划分出新的训练集和验证集（validate set），在新训练集训练模型，在验证集测试模型，不断调整初始模型（超参数等），使得训练得到的模型在验证集上的表现最好，最后放到测试集上得到这个最优模型的评估结果。

这个方案的问题在于模型的表现依赖于验证集的划分，可能使某些特殊样本被划入验证集，导致模型的表现出现异常（偏好或偏差）。而且训练集划了一部分给验证集后，训练模型能得到的数据就变少了，也会影响训练效果。因为通常来说，训练数据越多，越能反映出数据的真实分布，模型训练的效果就越好，越可能得到无偏估计。

交叉验证思想应运而生，交叉验证可以充分使用所有的训练数据用于评估模型。

作者：行走的程序猿
链接：https://www.jianshu.com/p/cdf6df99b44b
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

采用K折交叉验证 cv=10

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。