StratifiedKFold交叉验证（k-fold cross-validation）

最新推荐文章于 2025-03-17 09:56:17 发布

高山莫衣

最新推荐文章于 2025-03-17 09:56:17 发布

阅读量891

点赞数

分类专栏：初学笔记文章标签：深度学习机器学习人工智能

原创作品，共同进步！

本文链接：https://blog.csdn.net/AdamCY888/article/details/131353615

版权

初学笔记专栏收录该内容

26 篇文章

订阅专栏

代码展示了如何使用StratifiedKFold进行k折交叉验证，将数据集分为训练和测试部分，用于模型训练和评估。通过多次迭代，模型在不同子集上进行测试，提高了评估的可靠性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

from operator import itemgetter
kfold = StratifiedKFold(n_splits = 5)
test_predict_lst = [] # the test output for every fold
for train_index, test_index in kfold.split(train_df, train_y):

这段代码使用了交叉验证（k-fold cross-validation）来对数据进行训练和测试。下面是对代码的详细解释：

导入库：代码开头导入了itemgetter函数和StratifiedKFold类，这两个都是从operator模块中导入的。itemgetter函数用于提取对象中的元素，StratifiedKFold类是用于执行分层k折交叉验证的工具。

初始化交叉验证：使用StratifiedKFold类创建了一个名为kfold的对象，指定了参数n_splits为5。这表示数据将被分成5个子集，每个子集都会被用作一次测试集，其余的作为训练集。

创建空列表：创建了一个空列表test_predict_lst，用于存储每个折叠（fold）的测试集的输出结果。

进行交叉验证循环：通过kfold.split(train_df, train_y)调用split方法对训练数据集train_df和对应的目标变量train_y进行分割。split方法返回一个生成器对象，该对象提供了每个折叠的训练索引和测试索引。

遍历折叠：使用for循环遍历生成器对象，每次迭代获取一个折叠的训练索引和测试索引。

训练和测试：在每个折叠中，使用训练索引和测试索引从原始数据集中获取相应的训练集和测试集。然后，可以使用这些数据进行模型的训练和测试。

训练集：train_df[train_index]表示根据训练索引从train_df中获取相应的训练数据子集。

测试集：train_df[test_index]表示根据测试索引从train_df中获取相应的测试数据子集。

存储测试结果：将每个折叠的测试结果存储在test_predict_lst列表中。这个列表将包含每个折叠的测试输出结果。

通过使用交叉验证，可以在保持数据分布一致的同时，对模型进行多次评估和验证，提高模型评估的可靠性和泛化能力。

下面是一个简单的案例来说明这段代码的用法：

假设有一个数据集train_df，包含特征数据，以及一个目标变量train_y，用于分类任务。

from operator import itemgetter
from sklearn.model_selection import StratifiedKFold

kfold = StratifiedKFold(n_splits=5)
test_predict_lst = []

for train_index, test_index in kfold.split(train_df, train_y):
    # 获取训练集和测试集
    X_train, X_test = train_df[train_index], train_df[test

当然！下面是一个完整的案例代码，演示了如何使用交叉验证对分类模型进行训练和测试：

import numpy as np
from operator import itemgetter
from sklearn.model_selection import StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 示例数据集
train_df = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12], [13, 14], [15, 16], [17, 18], [19, 20]])
train_y = np.array([0, 0, 1, 1, 0, 0, 1, 1, 0, 1])

kfold = StratifiedKFold(n_splits=5)
test_predict_lst = []

for train_index, test_index in kfold.split(train_df, train_y):
    # 获取训练集和测试集
    X_train, X_test = train_df[train_index], train_df[test_index]
    y_train, y_test = train_y[train_index], train_y[test_index]

    # 创建分类模型（逻辑回归）
    model = LogisticRegression()

    # 在训练集上训练模型
    model.fit(X_train, y_train)

    # 在测试集上进行预测
    y_pred = model.predict(X_test)

    # 存储测试结果
    test_predict_lst.append(y_pred)

# 计算平均准确率
accuracy = accuracy_score(train_y, np.concatenate(test_predict_lst))
print("平均准确率:", accuracy)