嵌套交叉验证(Nested CV)

最新推荐文章于 2024-04-25 16:09:19 发布

懒麻蛇

最新推荐文章于 2024-04-25 16:09:19 发布

阅读量2k

点赞数 18

文章标签：支持向量机算法机器学习人工智能数据挖掘

本文链接：https://blog.csdn.net/lazysnake666/article/details/135591665

版权

最近，突然想要用R来搞搞机器学习，这让我想起了一个被尘封的草稿，当初让我放弃使用R做嵌套交叉验证的想法。于是，决定好好完善一番再发出去。有些事情不捋清楚，它就会在将来的某个时候等着你，让你心神不宁。先从交叉验证开始。

交叉验证

交叉验证(Cross Validation; CV)用于检验机器学习的模型表现，选择模型。如下图显示的便是一个3-fold CV。其中loop都使用了相同的随机森林(RF)模型。

(https://ploomber.io/blog/nested-cv/)

使用同样的方法，可以对比不同模型的表现，例如，如果支持向量机(SVM)比随机森林(RF)的表现好，便选用支持向量机作为最终模型。同样地，每个loop都使用相同的模型超参数)。

(https://ploomber.io/blog/nested-cv/)

机器学习的模型都会涉及超参数(hypoparameters)，选择不同的超参数可能会让模型表现改变。因此做交叉验证也可以用于调参。

(https://ploomber.io/blog/nested-cv/)

例如，这里使用交叉验证的结果说明，支持向量机(SVM)选择线性(Linear)内核比非线性(i.e., Poly)内核表现更好。这样做潜在的问题是，一旦选择了表现最好的超参数，该模型的表现通常会被报告为最优模型。由于这里每一次交叉验证的循环中，都使用了相同的数据来调参，因此存在着严重的优化偏差(bias)问题，可能导致对模型表现的乐观估计。

嵌套交叉验证

(https://ploomber.io/blog/nested-cv/)

如图所示，嵌套交叉验证进而将外层(outer)每个循环中的训练集再做一个k折交叉验证进行调参，这里调参的是n_estimations的数量，结果表示n_esimations=5的第三个fold的表现好，因此选择该参数的模型作为第三个fold的模型。实际中，可能会使用grid.search等策略对多种参数进行评估，每一个组合都会做一次k折交叉验证计算平均模型表现，最好的选为一个外层的最优模型。

重复交叉验证(Repeated CV)

由于在做k折交叉验证时，将数据一次划分为了k组，这样的划分存在随机性。有可能某一次划分会得到较好的结果，而另一次划分得到较差的结果。因此做重复交叉验证能减小由于将数据划分而造成的随机变化。