交叉验证方法

最新推荐文章于 2024-03-18 16:57:36 发布

jaeden_xu

最新推荐文章于 2024-03-18 16:57:36 发布

阅读量192

点赞数

分类专栏：数据分析挖掘文章标签： python

本文链接：https://blog.csdn.net/qq_41807261/article/details/120495897

版权

数据分析挖掘专栏收录该内容

58 篇文章 36 订阅

订阅专栏

该博客探讨了交叉验证在机器学习模型评估中的重要性，分别介绍了K折交叉验证、留一法交叉验证和留P法交叉验证的实现过程。通过使用`sklearn`库中的`KFold`、`LeaveOneOut`和`LeavePOut`方法，对数据集进行分割并训练SGDRegressor模型。每种方法都计算了训练集和验证集的均方误差，以评估模型性能。

摘要由CSDN通过智能技术生成

K折交叉验证
将原始数据分成K组，然后将每个子集数据分别做一次验证集，其余K-1组子集数据作为训练集，这样就会得到K个模型，将K个模型最终的验证集的分类准确率取平均值，作为K折交叉验证分类器的性能指标

from sklearn.model_selection import KFold
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error

kf = KFold(n_splits=10)

for k, (train_index, test_index) in enumerate(kf.split(new_train_pca_16)):
    train_data, test_data, train_target, test_target = train.values[train_index],train.values[test_index],target[train_index],target[test_index]
    clf = SGDRegressor(max_iter=1000,tol=1e-3)
    clf.fit(train_data,train_target)
    train_pred = clf.predict(train_data)
    test_pred = clf.predict(test_data)
    train_score = mean_squared_error(train_pred, train_target)
    test_score = mean_squared_error(test_pred, test_target)
    print(k,'+',train_score)
    print(k,'+',test_score)

留一法交叉验证
训练集由除一个样本之外的其余样本组成，留下一个样本组成验证集，对于N个样本的数据集，可以组成N个不同的训练集和N个不同的验证集

from sklearn.model_selection import LeaveOneOut
loo = LeaveOneOut()
num = 100
for k, (train_index, test_index) in enumerate(loo.split(new_train_pca_16)):
    train_data, test_data, train_target, test_target = train.values[train_index],train.values[test_index],target[train_index],target[test_index]
    clf = SGDRegressor(max_iter=1000,tol=1e-3)
    clf.fit(train_data,train_target)
    train_pred = clf.predict(train_data)
    test_pred = clf.predict(test_data)
    train_score = mean_squared_error(train_pred, train_target)
    test_score = mean_squared_error(test_pred, test_target)
    print(k,'+',train_score)
    print(k,'+',test_score)
    if k>9:
        break

留P法交叉验证
从完成的数据集中删除P个样本，产生所有可能的训练集和验证集

from sklearn.model_selection import LeavePOut
lpo = LeavePOut(p=10)
num = 100
for k, (train_index, test_index) in enumerate(loo.split(new_train_pca_16)):
    train_data, test_data, train_target, test_target = train.values[train_index],train.values[test_index],target[train_index],target[test_index]
    clf = SGDRegressor(max_iter=1000,tol=1e-3)
    clf.fit(train_data,train_target)
    train_pred = clf.predict(train_data)
    test_pred = clf.predict(test_data)
    train_score = mean_squared_error(train_pred, train_target)
    test_score = mean_squared_error(test_pred, test_target)
    print(k,'+',train_score)
    print(k,'+',test_score)
    if k>9:
        break