交叉验证的原理

富士达幸运星

于 2024-08-19 20:50:22 发布

阅读量392

点赞数 12

文章标签：人工智能深度学习机器学习交叉验证

本文链接：https://blog.csdn.net/2401_84670644/article/details/141333270

版权

交叉验证的原理与实践

在机器学习中，模型的评估与选择是一个至关重要的环节。为了确保我们的模型具有良好的泛化能力，即能够在未见过的数据上表现良好，交叉验证（Cross-Validation）成为了一种广泛使用的技术。

交叉验证的原理

交叉验证的基本思想是将原始数据集分为两部分：一部分作为训练集，用于训练模型；另一部分作为测试集，用于评估模型的性能。然而，简单的划分可能导致评估结果的不稳定，因为训练集和测试集的划分可能不是最优的。为了解决这个问题，交叉验证通过多次划分数据集并重复训练和测试过程，来提供更加稳定和可靠的模型评估。

常用方法

1. K折交叉验证（K-Fold Cross-Validation）：将数据集分成K个大小相同的互斥子集。每次用K-1个子集的数据训练模型，剩下的一个子集用来测试模型。重复上述过程K次，每次选择不同的子集作为测试集。最终模型的性能是这K次评估结果的平均值。

2.留一交叉验证（Leave-One-Out Cross-Validation）：适用于数据集较小的情况。每次留出一个样本作为测试集，其余所有样本作为训练集。重复上述过程，直到每个样本都被作为测试集使用过。计算所有测试结果的平均值作为模型性能的评估。

3.自助交叉验证（Bootstrap Cross-Validation）：从原始数据集中进行有放回的抽样，生成多个训练集。每个训练集用来训练模型，并在原始数据集上测试（通常除去被抽中的样本）。计算所有测试结果的平均值。

例：

scores = []
c_param_range = [0.01, 0.1, 1, 10, 100]
for i in c_param_range:
    lr = LogisticRegression(C=i, penalty='l2', solver='lbfgs', max_iter=1000)
    score = cross_val_score(lr, x_train, y_train, cv=8, scoring='recall')
    score_mean = sum(score) / len(score)
    scores.append(score_mean)
    print(score_mean)

这段代码的主要目的是通过改变逻辑回归（Logistic Regression）中的正则化强度参数C，来评估模型在训练数据上的召回率（Recall）表现。它使用了交叉验证（Cross-Validation）的方法，通过多次分割训练集来评估模型的泛化能力。下面是对代码的详细解释和步骤：

初始化一个空列表scores：这个列表用于存储不同C值下，模型通过交叉验证得到的召回率平均值。
定义c_param_range：这是一个包含不同C值的列表，C是逻辑回归中的正则化强度参数。C的值越小，正则化强度越大，反之亦然。
遍历c_param_range中的每个C值：
- 对于每个C值，创建一个LogisticRegression模型实例，其中penalty='l2'表示使用L2正则化，solver='lbfgs'是优化算法的选择（对于L2正则化和小数据集是一个很好的选择），max_iter=1000设置了算法的最大迭代次数。
- 使用cross_val_score函数进行交叉验证。这里，x_train和y_train分别是训练数据的特征和标签，cv=8表示将数据分为8份进行交叉验证，scoring='recall'指定了评分标准为召回率。
- cross_val_score会返回一个数组，包含了每次交叉验证的召回率。
- 计算这些召回率的平均值，并将其添加到scores列表中。
- 打印出当前C值对应的召回率平均值。