机器学习中常说的CV是什么？

Tina_1024

已于 2022-10-18 11:08:43 修改

阅读量6.3k

点赞数 2

分类专栏： python Scikit-Learning 文章标签：人工智能机器学习 python

于 2022-09-24 18:02:45 首次发布

本文链接：https://blog.csdn.net/sinat_36023271/article/details/127028235

版权

python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

Scikit-Learning

1 篇文章 0 订阅

订阅专栏

在学习的过程中，我们经常会听到CV，那么什么是CV呢？

交叉验证（Cross Validation，简称CV）是在机器学习建立模型和验证模型参数时常用的方法。顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集。用训练集来训练模型，测试集来评估模型的好坏。

在有监督的机器学习过程中，我们首先第一步要做的就是将数据划分为训练集和测试集，Hold-Out就是比较简单的一个划分方法，其中训练集用于训练模型，测试集用于验证模型。但Hold-Out不属于CV，因为这种方式有一个很大的缺点：只进行了一次划分，当数据集的划分不是随机进行的，数据结果具有偶然性，如果在某次划分中，训练集里全是容易学习的数据，测试集里全是复杂的数据，这样就会导致欠拟合；反之，容易导致过拟合。

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(data_train,y_train,test_size = 0.20,random_state = 50)

常用的CV方式，有多种，例如：

K折交叉验证（K-Fold Cross Validation）

K折交叉验证会把样本数据随机的分成 K份，每次随机的选择 K−1份作为训练集，剩下的1份做测试集。当这一轮完成后，重新随机选择 K−1份来训练数据。若干轮（小于 K）之后，选择损失函数评估最优的模型和参数。

留一交叉验证（Leave-one-out Cross Validation）

此时 K等于样本数 N，这样对于 N个样本，每次选择 N−1个样本来训练数据，留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况，比如对于普通适中问题，N小于50时，一般采用留一交叉验证。