机器学习：数据分割-交叉验证法

00&00

已于 2024-12-19 19:52:32 修改

阅读量1.5k

点赞数 26

分类专栏：人工智能文章标签：机器学习

于 2024-12-18 20:30:44 首次发布

本文链接：https://blog.csdn.net/Wei_sx/article/details/144568432

版权

人工智能专栏收录该内容

223 篇文章

订阅专栏

交叉验证（Cross Validation）是一种重要的模型评估技术，旨在确保模型的泛化能力。它通过将数据集分割成多个子集（通常称为“折叠”或“folds”），反复训练和测试模型，从而提供更可靠的性能评估。以下是交叉验证法的主要内容：

一、主要步骤

1. 数据分割

K-fold 交叉验证：将数据集分为 K 等份。模型将在 K-1 份数据上训练，然后在剩下的 1 份上测试。这个过程重复 K 次，每次选择不同的 1 份作为测试集，最后取 K 次的平均性能作为模型的评估指标。

StratifiedKFold交叉验证：是一种改进的 K-fold 交叉验证方法，特别适用于分类问题。它的主要目的是在每个折叠中保持各个类别的比例，从而确保训练集和测试集的类别分布与整个数据集相似。

留一交叉验证（Leave-One-Out Cross Validation, LOOCV）**：在每次迭代中使用整个数据集中的一个样本作为测试集，其余样本作为训练集。对于 N 个样本，留一交叉验证将进行 N 次训练和测试。

2. 模型评估

每次训练结束后，记录模型在测试集上的性能指标（如准确率、F1 分数等）。

3. 性能汇总

最终，通过将所有折叠的性能指标取平均值来得到模型的整体性能评估。

二、交叉验证方法

1. K-fold 交叉验证

K-fold 交叉验证是一种常用的模型评估技术，旨在提高模型的泛化能力和评估的可靠性。它通过将数据集分成 K 个子集（通常称为“折叠”或“folds”），反复训练和测试模型，从而提供更全面的性能评估。

1.1 主要步骤

        步骤1 数据分割：
        将数据集随机分成 K 个等份。每个折叠都将作为一次测试集，其余 K-1 个折叠作为训练集。
        这个过程会重复 K 次，每次选择不同的折叠作为测试集。

        步骤2 模型训练与评估：
        在每次迭代中，使用 K-1 个折叠的数据训练模型，并在剩下的 1 个折叠上进行测试。
        记录每次测试的性能指标（如准确率、F1 分数等）。

步骤3 性能汇总：
最后，通过计算 K 次测试的性能指标的平均值，得到模型的整体性能评估。

1.2 优点

更可靠的评估：通过在不同的数据集上进行训练和测试，可以减少偶然性，提高评估的可靠性。
充分利用数据：避免数据浪费，尤其是在数据量较少的情况下，交叉验证可以充分利用每一条数据。

1.3 示例代码

以下是使用 `scikit-learn` 中的 K-fold 交叉验证的示例代码：

from sklearn.model_selection import cross_val_score  
from sklearn.datasets import load_iris  
from sklearn.ensemble import RandomForestClassifier  

# 加载数据  
data = load_iris()  
X, y = data.data, data.target  

# 创建模型  
model = RandomForestClassifier()  

# 进行 K-fold 交叉验证  
scores = cross_val_score(model, X, y, cv=5)  

# 输出结果  
print(f'交叉验证得分: {scores}')  
print(f'均值: {scores.mean()}')

1.4 小结

K-fold 交叉验证是一种有效的模型评估方法，能够减少过拟合风险并提高模型的泛化能力。通过将数据集分割为多个折叠，K-fold 交叉验证可以充分利用数据，提供更可靠的性能评估。在实际应用中，K-fold 交叉验证常与其他技术（如网格搜索）结合使用，以优化模型的超参数和性能。

2. StratifiedKFold 交叉验证

StratifiedKFold是一种改进的 K-fold 交叉验证方法，特别适用于分类问题。它的主要目的是在每个折叠中保持各个类别的比例，从而确保训练集和测试集的类别分布与整个数据集相似。这种方法在处理类别不平衡的数据集时尤为重要，因为它可以减少模型评估时的偏差。

2.1 主要步骤

步骤1 数据分割：
将数据集划分为 K 个折叠（folds），在每个折叠中，确保每个类别的样本比例与整个数据集一致。例如，如果数据集中有 70% 的样本属于类别 A，30% 的样本属于类别 B，那么在每个折叠中也应保持这个比例。

        步骤2 模型训练与评估：
        在每次迭代中，选择一个折叠作为测试集，其余 K-1 个折叠作为训练集。
        训练模型并在测试集上评估性能，记录每次的性能指标。

步骤3 性能汇总：
最后，通过计算所有折叠的性能指标的平均值，得到模型的整体性能评估。

2.2 优点

保持类别比例：通过保持每个折叠中的类别比例，StratifiedKFold 可以提供更可靠的模型评估，特别是在类别不平衡的情况下。
减少偏差：确保每个类别在训练和测试中都有代表性，从而减少模型评估的偏差。

2.3 示例代码

以下是使用 `scikit-learn` 中的 `StratifiedKFold` 的示例代码：

from sklearn.datasets import load_iris  
from sklearn.model_selection import StratifiedKFold  
from sklearn.ensemble import RandomForestClassifier  
from sklearn.metrics import accuracy_score  

# 加载数据  
data = load_iris()  
X, y = data.data, data.target  

# 创建 StratifiedKFold 对象  
skf = StratifiedKFold(n_splits=5)  

# 创建模型  
model = RandomForestClassifier()  

# 存储每次的准确率  
accuracies = []  

# 进行 StratifiedKFold 交叉验证  
for train_index, test_index in skf.split(X, y):  
    X_train, X_test = X[train_index], X[test_index]  
    y_train, y_test = y[train_index], y[test_index]  
    
    # 训练模型  
    model.fit(X_train, y_train)  
    
    # 预测  
    y_pred = model.predict(X_test)  
    
    # 计算准确率  
    accuracy = accuracy_score(y_test, y_pred)  
    accuracies.append(accuracy)  

# 输出结果  
print(f'每次交叉验证的准确率: {accuracies}')  
print(f'平均准确率: {sum(accuracies) / len(accuracies)}')

2.4 小结

StratifiedKFold 是一种有效的交叉验证方法，特别适用于处理类别不平衡的数据集。通过保持每个折叠中的类别比例，它能够提供更可靠的模型评估，减少评估结果的偏差。在实际应用中，结合使用 StratifiedKFold 和其他技术（如网格搜索）可以进一步优化模型性能。

3. 留一交叉验证（Leave-One-Out Cross Validation, LOOCV）

留一交叉验证是一种特殊的交叉验证方法，主要用于模型评估。它的基本思想是将数据集中的每个样本都作为一次测试集，其余的样本作为训练集。这种方法在样本量较小的情况下尤其有效，因为它能够充分利用每一个样本进行训练和评估。

3.1 主要步骤

        步骤1 数据分割：
        对于数据集中的每一个样本，留出该样本作为测试集，其余样本作为训练集。
        如果数据集中有 N 个样本，则留一交叉验证将进行 N 次训练和测试。

        步骤2 模型训练与评估：
        在每次迭代中，使用 N-1 个样本训练模型，并在留出的 1 个样本上进行测试。
        记录每次测试的性能指标（如准确率、F1 分数等）。

步骤3 性能汇总：
最后，通过计算 N 次测试的性能指标的平均值，得到模型的整体性能评估。

3.2 优缺点

优点：

充分利用数据：每个样本都被用作测试集，能够最大限度地利用数据，特别是在样本量较小的情况下。
评估结果可靠：由于每个样本都被单独测试，评估结果通常较为可靠。

缺点

计算成本高：对于大数据集，留一交叉验证需要进行 N 次模型训练，计算成本较高。
结果波动性：如果数据集中存在异常值，可能会对模型评估结果产生较大影响。

3.3 示例代码

以下是使用 `scikit-learn` 中的留一交叉验证的示例代码：

from sklearn.datasets import load_iris  
from sklearn.model_selection import LeaveOneOut  
from sklearn.ensemble import RandomForestClassifier  
from sklearn.metrics import accuracy_score  

# 加载数据  
data = load_iris()  
X, y = data.data, data.target  

# 创建 Leave-One-Out 对象  
loo = LeaveOneOut()  

# 创建模型  
model = RandomForestClassifier()  

# 存储每次的准确率  
accuracies = []  

# 进行留一交叉验证  
for train_index, test_index in loo.split(X):  
    X_train, X_test = X[train_index], X[test_index]  
    y_train, y_test = y[train_index], y[test_index]  
    
    # 训练模型  
    model.fit(X_train, y_train)  
    
    # 预测  
    y_pred = model.predict(X_test)  
    
    # 计算准确率  
    accuracy = accuracy_score(y_test, y_pred)  
    accuracies.append(accuracy)  

# 输出结果  
print(f'留一交叉验证的平均准确率: {sum(accuracies) / len(accuracies)}')