基础不牢,地动山摇。
交叉验证(Cross Validation)是常用的模型选择(模型评估)方法。在实际问题中,如果给定的样本数据充足,进行模型选择的方法是随机地将数据集划分成三部分,分别为训练集、验证集、测试集。在训练集上用不同的学习方法训练多个模型,将训练到的多个模型在验证集上验证,选择验证误差最小的模型作为最终的模型,最后用测试集对选出的最终模型进行测试,相应的思路流程图如下所示。而在数据不充足的情况下,为了选择好的模型,我们可以采取交叉验证法。个人认为,交叉验证的一个显著特点是:摒弃了独立验证集,仅将数据划分为训练集和测试集。交叉验证又可细分为:简单交叉验证、折交叉验证、留一交叉验证。
1. 简单交叉验证
简单交叉验证方法是:首先随机地将已给数据分成两部分:训练集、测试集;然后在训练集上用不同的学习方法训练多个模型,在测试集上评价各个模型的测试误差,选择测试误差最小的模型作为最终的模型,这个模型可以用来预测新数据。思路流程图如下所示。
2. K折交叉验证
折交叉验证法:首先将数据集
划分为
个大小相似的互斥子集,即:
。对同一种学习方法,每次用
个子集的并集作为训练集,余下的那个子集作为测试集,可以获得
组训练集+测试集的组合,从而可以进行
次训练和测试,最终返回这
次测试误差的平均值,这时,我们称完成了一次
折交叉验证。下图展示的是对学习方法
进行一次
折交叉验证的流程图。我们知道,将数据集
划分为
个子集存在多种划分方式,为了减小因样本划分不同而引入的差别,
折交叉验证通常要随机使用不同的划分重复
次,最终返回这
次
折交叉验证测试误差的平均值。
我们对学习方法,学习方法
,
,学习方法
进行同样的
次
折交叉验证,选择平均测试误差最小的学习方法作为我们最终的学习方法,在数据集
上用这种学习方法训练模型,即可得到最终的模型,这个模型可以用于预测新数据。
注意点:不能将交叉验证中测试误差最小的一折对应的模型直接作为最终的模型使用,而应该用全部数据集重新训练一个模型。
3. 留一交叉验证
假设数据集中包含
个样本,如果在
折交叉验证中令
,就得到了
折交叉验证法的一个特例:留一交叉验证。显然,留一交叉验证不受数据集划分方式的影响,因为
个样本划分成
个子集只有一种划分方式——每个子集中只包含一个样本。类似地,对不同的学习方法进行留一交叉验证,选择平均测试误差最小的学习方法作为最终的学习方法,在数据集
上用这种学习方法训练模型,即可得到最终的模型,这个模型可以用于预测新数据。
参考:
http://alithink.com/2018/12/25/%E6%AD%A3%E7%A1%AE%E4%BD%BF%E7%94%A8%E4%BA%A4%E5%8F%89%E9%AA%8C%E8%AF%81/
《统计学习方法》李航 著
《机器学习》周志华 著