5折交叉验证_模型评估之K折交叉验证

    上节我们说了留出法,这次说下K折交叉验证,这是我们做模型评估时经常使用的方法。

    K折交叉验证的3个要点:

    1:数据集划分为K个相同大小的互斥子集。

    2:通过分层抽样K个子集保持分布一致性。

    3:K次评估结果的均值,每次用K-1个集合训练,剩下的一个做模型评估。

270dcfc322bc8a3c88c1d824a5ca6be3.png

0c9f23891c8d2bc23efe64dcbd18b8c7.png

7c592c7e45eaa9f9d8b7a74b431b8c14.png

    上述例子中共有样本10个,我们做了5折交叉验证,看下测试集索引,所有样本集的并集就是整个样本集了,训练集与当前测试集的并集也是整个样本集,其实就是每次用其中把本样本做为训练集,剩余的两个做为测试集,最终是用这5组样本集训练的模型进行性能评估的平均。

    当K是样本集大小时就是:留一法。也就是每次只有一个样本做为验证集,留一法评估结果一般比较准确,就是当样本集太大时太耗时,所以一般很少用到留一法,这里就不多介绍了。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
K交叉验证是一种常用的评估机器学习模型性能的方法,可以有效地避免过拟合和欠拟合的问题。具体来说,K交叉验证将数据集分成K个相等的子集,每个子集依次作为验证集,其余K-1个子集作为训练集,这样就可以得到K个模型的性能指标,最终取平均值作为模型的性能指标。 Python中可以使用scikit-learn库中的KFold函数实现K交叉验证。以下是一个简单的例子: ```python from sklearn.model_selection import KFold from sklearn.linear_model import LinearRegression from sklearn.datasets import load_boston # 加载波士顿房价数据集 boston = load_boston() X, y = boston.data, boston.target # 定义K交叉验证器 kf = KFold(n_splits=5) # 定义线性回归模型 model = LinearRegression() # 进行K交叉验证,并输出每个模型的得分 for train_index, test_index in kf.split(X): X_train, X_test = X[train_index], X[test_index] y_train, y_test = y[train_index], y[test_index] model.fit(X_train, y_train) score = model.score(X_test, y_test) print(score) ``` 在上述代码中,我们首先加载了波士顿房价数据集,然后定义了一个5交叉验证器。接着,我们定义了一个线性回归模型,并使用KFold函数进行K交叉验证。在每一次交叉验证中,我们将数据集分成训练集和测试集,然后使用线性回归模型进行训练和预测,并输出每个模型的得分。最终,我们可以将这些得分取平均值作为模型的性能指标。 希望这个例子可以帮助你理解K交叉验证的实现方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值