统计学补充概念19-交叉验证

最新推荐文章于 2025-03-20 19:22:26 发布

丰。。

最新推荐文章于 2025-03-20 19:22:26 发布

阅读量470

点赞数

分类专栏：统计学补充概念统计学文章标签：信息可视化数据分析数据挖掘大数据

本文链接：https://blog.csdn.net/CSDNXXCQ/article/details/132634170

版权

统计学同时被 2 个专栏收录

31 篇文章

订阅专栏

统计学补充概念

19 篇文章

订阅专栏

概念

交叉验证（Cross-Validation）是一种用于评估机器学习模型性能的统计技术。其主要目的是评估模型在未见过的数据上的泛化能力，即模型在新数据上的表现如何，而不仅仅是在训练数据上的性能。

交叉验证的基本思想是将可用的数据分成两个部分：一个用于模型的训练（训练集），另一个用于模型的评估（测试集）。然后，多次重复这个过程，每次都使用不同的数据子集来进行训练和测试。最常见的交叉验证方法是K折交叉验证（K-Fold Cross-Validation），它包括以下步骤：

将数据集分成K个相似大小的子集，通常是随机划分。
选择其中一个子集作为测试集，其余K-1个子集作为训练集。
使用训练集来训练模型，并使用测试集来评估模型性能。
记录评估指标（如准确率、均方误差等）。
重复步骤2到步骤4，每次选择不同的测试集。
计算K次评估指标的平均值，作为模型的最终性能评估。
K-Fold交叉验证有助于更准确地估计模型在不同数据子集上的性能，从而减少因特定数据集分布而引起的偶然性误差。它还可以帮助检测模型是否出现过拟合或欠拟合的问题，因为它在不同的数据子集上进行多次评估。

其他常见的交叉验证技巧包括留一交叉验证（Leave-One-Out Cross-Validation，LOOCV）和随机划分交叉验证（Stratified K-Fold Cross-Validation），它们适用于不同的情境和数据集大小。

总之，交叉验证是一种重要的技术，可帮助评估机器学习模型的性能，并提高模型的泛化能力。它在模型选择、调参和性能评估等领域都起着关键作用。

代码实现

import numpy as np
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression

# 创建虚拟的特征矩阵和标签
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6], [6, 7], [7, 8], [8, 9], [9, 10], [10, 11]])
y = np.array([0, 0, 1, 1, 0, 0, 1, 1, 0, 0])

# 初始化K折交叉验证
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# 初始化分类器
classifier = LogisticRegression()

# 用交叉验证来评估模型性能
for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    # 在训练集上训练模型
    classifier.fit(X_train, y_train)
    
    # 在测试集上评估模型
    accuracy = classifier.score(X_test, y_test)
    print(f"Accuracy: {accuracy:.2f}")

# 输出每个折叠的准确率