Python实现交叉验证法_交叉验证代码python-CSDN博客

本文链接：https://blog.csdn.net/rubyw/article/details/135751060

交叉验证是一种用于评估模型性能和选择超参数的方法。其中，k折交叉验证是最常用的形式之一。它将数据集分为k个相似大小的折（folds），然后执行k次训练-测试过程，每次选择一个不同的折用作测试集，其余折用作训练集。最后，将k次测试的性能指标的平均值作为最终性能指标。

在scikit-learn库中，可以使用cross_val_score函数进行交叉验证。以下是一个示例，演示如何在多项式回归中使用交叉验证：

import numpy as np
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

# 生成一些示例数据
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 3 * X + 2 * X**2 + 1 + np.random.randn(100, 1)

# 创建多项式回归模型
degree = 2
model = make_pipeline(PolynomialFeatures(degree), LinearRegression())

# 进行k折交叉验证
k_folds = 5
cv_scores = cross_val_score(model, X, y, cv=k_folds, scoring='neg_mean_squared_error')

# 输出交叉验证的均方误差（MSE）得分
print("交叉验证的均方误差得分:", -cv_scores)

# 输出均方误差的平均值
print("平均均方误差:", -np.mean(cv_scores))