机器学习_K折交叉验证知识详解(深刻理解版)(全网最详细)

K折交叉验证的作用

当有多个不同的模型(结构不同、超参数不同等)可以选择时,我们通过K折交叉验证来选取对于特定数据集最好的模型。

K折交叉验证的流程

  1. 将含有 N N N个样本的数据集,分成 K K K份,每份含有 N K \frac{N}{K} KN个样本。选择其中一份作为验证集,另外 K − 1 K-1 K1份作为训练集,验证集集就有 K K K种情况。
  2. 在每种情况中,用训练集训练模型,用验证集测试模型,计算模型的泛化误差。
  3. 交叉验证重复 K K K次,平均 K K K次的结果作为模型最终的泛化误差。
  4. K K K的取值一般在 [ 2 , 10 ] [2,10] [210]之间。 K K K折交叉验证的优势在于,同时重复运用随机产生的子样本进行训练和验证, 10 10 10折交叉验证是最常用的。
  5. 训练集中样本数量要足够多,一般至少大于总样本数的50%。
  6. 训练集和验证集必须从完整的数据集中均匀采样。均匀采样的目的是希望减少训练集、验证集与原数据集之间的偏差。当样本数量足够多时,通过随机采样,便可以实现均匀采样的效果。

5折交叉验证举例

5折交叉验证(5-fold cross-validation)用来验证从不同的模型中选取最优的模型(最合适的模型)。将数据集分成5份,轮流将其中4份作为训练数据,1份作为验证数据,进行试验。每次试验都会得出相应的正确率。5次的结果的正确率的平均值作为对算法精度的估计。同时对不同的模型(如CNN、SVM、LR等)做上述相同的操作,得出每个模型在特定数据集上的平均能力,从中选优。

例子:

假设我们有一个特定数据集,我们想从YOLOv4、Mask R-CNN、SSD、Faster R-CNN、RetinaNet这五个模型中选取在这个特定数据集中有最好效果的一个模型作为baseline,我们可以进行交叉验证来进行判断:

步骤:

  1. 将数据集分成5份。
  2. 对于每一个模型,for i = 1, 2, 3, 4,5,每个for循环里将除了第i份的所有数据作为训练集用于训练,得到参数;再将参数在第i份数据上进行验证,得到评价结果。
  3. 最后我们可以得到5个模型的结果,每个模型有5个验证结果。将每个模型的结果取平均值,得到该模型的平均结果。
  4. 5个模型中平均结果最好的模型就是我们想要的最优模型。
K折交叉验证是一种常用的评估机器学习模型性能的方法,可以有效地避免过拟合和欠拟合的问题。具体来说,K折交叉验证将数据集分成K个相等的子集,每个子集依次作为验证集,其余K-1个子集作为训练集,这样就可以得到K个模型的性能指标,最终取平均值作为模型的性能指标。 Python中可以使用scikit-learn库中的KFold函数实现K折交叉验证。以下是一个简单的例子: ```python from sklearn.model_selection import KFold from sklearn.linear_model import LinearRegression from sklearn.datasets import load_boston # 加载波士顿房价数据集 boston = load_boston() X, y = boston.data, boston.target # 定义K折交叉验证器 kf = KFold(n_splits=5) # 定义线性回归模型 model = LinearRegression() # 进行K折交叉验证,并输出每个模型的得分 for train_index, test_index in kf.split(X): X_train, X_test = X[train_index], X[test_index] y_train, y_test = y[train_index], y[test_index] model.fit(X_train, y_train) score = model.score(X_test, y_test) print(score) ``` 在上述代码中,我们首先加载了波士顿房价数据集,然后定义了一个5折交叉验证器。接着,我们定义了一个线性回归模型,并使用KFold函数进行K折交叉验证。在每一次交叉验证中,我们将数据集分成训练集和测试集,然后使用线性回归模型进行训练和预测,并输出每个模型的得分。最终,我们可以将这些得分取平均值作为模型的性能指标。 希望这个例子可以帮助你理解K折交叉验证的实现方法。
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Rocky Ding*

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值