交叉验证（cross-validation）

最新推荐文章于 2024-10-06 16:48:57 发布

shuizhilei3334

最新推荐文章于 2024-10-06 16:48:57 发布

阅读量3.2k

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

1 篇文章

订阅专栏

交叉验证是模型选择的重要方法，通过将数据集分成n份，轮流作为测试集评估模型。n-fold交叉验证过程包括数据划分、训练与测试、误差计算。通常在机器学习中，n取5或10，用于平衡模型的偏差与方差。选择最佳参数Θ的标准是使交叉验证误差R^CV(Θ)最小，最后在选定参数下对完整数据集进行训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

定义

cross-validation，即交叉验证。它常常用来进行模型选择。所谓的n-fold交叉验证，就是将训练数据等分为n份，每次训练的时候，只使用n-1份，余下的数据来对训练得到的参数进行评估。一般交叉验证都是为了选出一些自由参数的值(free parameters)，例如penalty的惩罚因子就属于自由参数。

形式化n-fold cross-validation

我们用 $\Theta$ 来表示一组自由参数的向量。对于一个固定的值 $\Theta$ ，交叉验证的过程如下：
1. 首先，随机将一个大小为m的给定样本集S划分为n个子样本集，或成为n-fold。第i个样本集可以表示为(( $x_{i1},y_{i1}$ ),…,( $x_{im_i},y_{i,m_i}$ )) 大小为 $m_i$ .
2. 得到n-fold之后，对于任意的 $i\in[1,n]$ , 从中取出第i-fold，其余的用来进行训练，得到hypothesis $h_i$ . $h_i$ 在ith-fold上面进行测试。如下图：
n-fold cross-validation
3. 参数 $\Theta$ 的值是通过计算hypothesis $h_i$ 的平均错误得到的，这个平均错误被称为交叉验证误差(cross-validation error).可以用下式来进行表示：