【机器学习笔记(八)】之Sklearn中交叉验证 KFold简要讲解

本文章由公号【开发小鸽】发布!欢迎关注!!!


老规矩–妹妹镇楼:

Sklearn中交叉验证API KFold讲解

一. 交叉验证原理讲解

1. 设置验证集的原因

       在机器学习建模过程中,将数据分为训练集和测试集。测试集合训练集是完全分开的两个数据集,完全不参与训练,只是用于模型最终确定后,来测试模型的效果。而训练集又要分出一部分数据用来验证模型的训练效果,即验证集。验证集在每次训练集训练结束后,对模型的效果进行初步地测试。之所以要设置验证集,是因为训练数据会有过拟合的情况出现,即训练数据能够很好地匹配训练数据,但对于训练数据之外的数据效果非常差。验证集不参与训练,可以客观地评价模型对于训练集之外的数据的匹配度

2. 交叉验证原理

       交叉验证经常用于数据的验证,原理是将数据分为 n 组,每组数据都要作为一次验证集进行一次验证,而其余的 n-1 组数据作为训练集。这样一共要循环 n 次,验证 n 次,得到 n 个模型,这 n 个模型得到的 n 个误差计算均值,得到交叉验证误差。

二. API 讲解

1. 导入
from sklearn.model_selection import KFold
2. 参数
(1)n_splits:

       将训练集分为 n 份,n份数据,每一份都要作为作为一次验证集来验证训练的结果,一共 n 次循环,其余n-1份数据作为训练集进行训练。

(2). shuffle:

       表示是否打乱数据的顺序 ,bool 类型。

(3). random_state:

       同一个数字保证每次循环都是分成同样的份。

3. 调用:
kf = KFold(n_splits=3, shuffle=False, random_state=None)

       返回 train_index, test_index,训练集的索引,验证集的索引

4. 使用:
for train_index, test_index in kf.split(titanic):
	"""
  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值