KFold实现K折交叉验证(Cross-Validation)
前一篇已经说过交叉验证的原理了,这篇使用sklearn库中的KFold来具体实现。
官方解释
先贴一张官方的截图
参数配置
n_splits: 整数,表示分割折数(K),默认3;分割数据的份数,至少为2
shuffle: 布尔,可选 ,分割数据之前是否打乱数据
random_state: int,RandomState实例或者None,可选,默认为None
当shuffle==True时,使用
如果为整数,作为随机数字生成器的种子,生成随机状态
如果为随机状态 ,random_state 是随机状态生成器
如果为None,随机数字生成器使用np.random
使用方法
简单理解
先简单理解下函数的使用:
from sklearn.model_selection import KFold
train = pd.DataFrame([[1,2,3,4,5,6],[3,3,3,3,3,3],[4,4,4,4,4,4],[5,5,5,5,5,5],[6,6,6,6,6,6],[7,7,7,7,7,7]])#训练集
test = pd.DataFrame([0,0,0,1,1,1])#测试集
kf = KFold(n_splits = 6,random_state = 2,shuffle = True)实例化,配置三个参数
for i,j in kf.split(train,test):#设置6折,便会循环6次
print(i,j)
结果如下:
[0 1 2 3 5] [4]
[0 2 3 4 5] [1]
[0 1 2 4 5] [3]
[0 1 3 4 5] [2]
[0 1 2 3 4] [5]
[1 2 3 4 5] [0]
分析:设置k=6,KFold会以random_state为随机种子,在数据集中随机选择5个作为训练集,1个位测试集,循环6次,每次返回训练集和测试集的索引。
实际工程使用
#self.mod中存放多个模型(因项目中使用集成学习)
for i,model in enumerate(self.mod):#索引和模型本身
for train_index,var_index in self.kf.split(X,y):#使用KFold产生训练集和测试集,以索引返回。kf = KFold(n_splits = 5,random_state = 42,shuffle = True)
renew_model = clone(model) #模型复制
renew_model.fit(X[train_index],y[train_index]) #对数据进行训练
self.saved_model[i].append(renew_model)#把模型添加进去
oof_train[var_index,i] = renew_model.predict(X[var_index])#存放预测结果