KFold实现K折交叉验证（Cross-Validation）

最新推荐文章于 2024-05-16 16:21:16 发布

macan_dct

最新推荐文章于 2024-05-16 16:21:16 发布

阅读量2.9k

点赞数 3

分类专栏：机器学习案例实战文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42211626/article/details/100070631

版权

机器学习案例实战专栏收录该内容

2 篇文章 3 订阅

订阅专栏

KFold实现K折交叉验证（Cross-Validation）

前一篇已经说过交叉验证的原理了，这篇使用sklearn库中的KFold来具体实现。

官方解释

先贴一张官方的截图
在这里插入图片描述

参数配置

n_splits: 整数，表示分割折数（K），默认3；分割数据的份数，至少为2

shuffle: 布尔，可选，分割数据之前是否打乱数据
random_state： int，RandomState实例或者None，可选，默认为None
当shuffle==True时，使用
如果为整数，作为随机数字生成器的种子，生成随机状态
如果为随机状态，random_state 是随机状态生成器
如果为None，随机数字生成器使用np.random

使用方法

简单理解

先简单理解下函数的使用：

from sklearn.model_selection import KFold
train = pd.DataFrame([[1,2,3,4,5,6],[3,3,3,3,3,3],[4,4,4,4,4,4],[5,5,5,5,5,5],[6,6,6,6,6,6],[7,7,7,7,7,7]])#训练集
test = pd.DataFrame([0,0,0,1,1,1])#测试集
kf = KFold(n_splits = 6,random_state = 2,shuffle = True)实例化，配置三个参数
for i,j in kf.split(train,test):#设置6折，便会循环6次
    print(i,j)

结果如下：

[0 1 2 3 5] [4]
[0 2 3 4 5] [1]
[0 1 2 4 5] [3]
[0 1 3 4 5] [2]
[0 1 2 3 4] [5]
[1 2 3 4 5] [0]

分析：设置k=6，KFold会以random_state为随机种子，在数据集中随机选择5个作为训练集，1个位测试集，循环6次，每次返回训练集和测试集的索引。

实际工程使用

 #self.mod中存放多个模型（因项目中使用集成学习）
 for i,model in enumerate(self.mod):#索引和模型本身
        for train_index,var_index in self.kf.split(X,y):#使用KFold产生训练集和测试集，以索引返回。kf = KFold(n_splits = 5,random_state = 42,shuffle = True)
            renew_model = clone(model) #模型复制
            renew_model.fit(X[train_index],y[train_index]) #对数据进行训练
            self.saved_model[i].append(renew_model)#把模型添加进去
            oof_train[var_index,i] = renew_model.predict(X[var_index])#存放预测结果

macan_dct

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
KFold实现K折交叉验证（Cross-Validation）

KFold实现K折交叉验证（Cross-Validation）前一篇已经说过交叉验证的原理了，这篇使用sklearn库中的KFold来具体实现。官方解释先贴一张官方的截图参数配置n_splits: 整数，表示分割折数（K），默认3；分割数据的份数，至少为2shuffle: 布尔，可选，分割数据之前是否打乱数据random_state： int，RandomState实例或者No...
复制链接

扫一扫