机器学习_K折交叉验证知识详解（深刻理解版）（全网最详细）

Rocky Ding*

已于 2022-09-12 10:20:06 修改

阅读量3.9w

点赞数 29

分类专栏：机器学习文章标签：机器学习深度学习交叉验证神经网络算法

于 2020-07-12 11:44:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Rocky6688/article/details/107296546

版权

机器学习专栏收录该内容

19 篇文章

订阅专栏

K折交叉验证的作用

当有多个不同的模型（结构不同、超参数不同等）可以选择时，我们通过K折交叉验证来选取对于特定数据集最好的模型。

K折交叉验证的流程

将含有 $N$ 个样本的数据集，分成 $K$ 份，每份含有 $\frac{N}{K}$ 个样本。选择其中一份作为验证集，另外 $K - 1$ 份作为训练集，验证集集就有 $K$ 种情况。
在每种情况中，用训练集训练模型，用验证集测试模型，计算模型的泛化误差。
交叉验证重复 $K$ 次，平均 $K$ 次的结果作为模型最终的泛化误差。
$K$ 的取值一般在 $[2 ， 10]$ 之间。 $K$ 折交叉验证的优势在于，同时重复运用随机产生的子样本进行训练和验证， $10$ 折交叉验证是最常用的。
训练集中样本数量要足够多，一般至少大于总样本数的50%。
训练集和验证集必须从完整的数据集中均匀采样。均匀采样的目的是希望减少训练集、验证集与原数据集之间的偏差。当样本数量足够多时，通过随机采样，便可以实现均匀采样的效果。

5折交叉验证举例

5折交叉验证(5-fold cross-validation)用来验证从不同的模型中选取最优的模型（最合适的模型）。将数据集分成5份，轮流将其中4份作为训练数据，1份作为验证数据，进行试验。每次试验都会得出相应的正确率。5次的结果的正确率的平均值作为对算法精度的估计。同时对不同的模型（如CNN、SVM、LR等）做上述相同的操作，得出每个模型在特定数据集上的平均能力，从中选优。

例子：

假设我们有一个特定数据集，我们想从YOLOv4、Mask R-CNN、SSD、Faster R-CNN、RetinaNet这五个模型中选取在这个特定数据集中有最好效果的一个模型作为baseline，我们可以进行交叉验证来进行判断：

步骤：

将数据集分成5份。
对于每一个模型，for i = 1， 2， 3， 4，5，每个for循环里将除了第i份的所有数据作为训练集用于训练，得到参数；再将参数在第i份数据上进行验证，得到评价结果。
最后我们可以得到5个模型的结果，每个模型有5个验证结果。将每个模型的结果取平均值，得到该模型的平均结果。
5个模型中平均结果最好的模型就是我们想要的最优模型。

评论 15

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Rocky Ding* 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。