K-折交叉验证（K-fold Cross Validation）

最新推荐文章于 2025-03-15 20:23:04 发布

请向我看齐

最新推荐文章于 2025-03-15 20:23:04 发布

阅读量1.6k

点赞数 7

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/qq_40844444/article/details/143880366

版权

人工智能专栏收录该内容

51 篇文章

订阅专栏

K-折交叉验证（K-fold Cross Validation）概念

K-折交叉验证是一种统计学方法，用于估计一个模型的泛化能力。在这种方法中，数据集被随机地分为K个大小相等的子集。每次迭代中，使用K-1个子集作为训练集，剩下的一个子集作为验证集，进行模型的训练和评估。这个过程重复K次，每个子集都有机会作为验证集。

原理

K-折交叉验证通过在不同的数据子集上重复训练和验证模型，可以减少模型的方差，提供模型性能的更稳定估计。

步骤

将数据集分为K个大小相等的子集。
对于每个子集：
- 将该子集作为验证集。
- 使用剩余的K-1个子集作为训练集。
- 在训练集上训练模型，并在验证集上评估模型性能。
记录每次迭代的性能指标。
计算所有迭代的性能指标的平均值。

用途

评估模型的泛化能力。
选择模型或模型参数。
在有限的数据集上优化模型性能。

Python代码详细实现

以下是一个使用Python实现K-折交叉验证的例子，并附有注释。

from sklearn.model_selection import KFold
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import numpy as np
# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
# 定义K折交叉验证的折数
k = 5
kf = KFold(n_splits=k, shuffle=True, random_state=42)
# 初始化随机森林分类器
clf = RandomForestClassifier(random_state=42)
# 用于存储每次迭代的准确率
accuracies = []
# 进行K折交叉验证
for train_index, val_index in kf.split(X):
    # 划分训练集和验证集
    X_train, X_val = X[train_index], X[val_index]
    y_train, y_val = y[train_index], y[val_index]
    
    # 训练模型
    clf.fit(X_train, y_train)
    
    # 在验证集上进行预测
    y_pred = clf.predict(X_val)
    
    # 计算并存储准确率
    accuracy = accuracy_score(y_val, y_pred)
    accuracies.append(accuracy)
    print(f'Fold {len(accuracies)} accuracy: {accuracy:.2f}')
# 计算平均准确率
mean_accuracy = np.mean(accuracies)
print(f'Mean accuracy across all folds: {mean_accuracy:.2f}')