k一般取3-10
可用来确定不同类型的模型哪个更好
原理:将原数据划分为k份(一般为等分),其中每份分别做一次验证集,其余为训练集
代码演示:
1.从sklearn库引入KFold
from sklearn.model_selection import KFold
KFold(n_splits=’warn’, shuffle=False, random_state=None)
参数:
n_splits 表示划分为几块(至少是2)
shuffle 表示是否打乱划分,默认False,即不打乱
random_state 表示是否固定随机起点,Used when shuffle == True.
使用:get_n_splits([X,y,groups])返回分的块数,split([X,y,groups])返回分类后数据集的index
import numpy as np
X=np.array([[1,2],[3,4],[5,6],[7,8],[9,10],[11,12],[13,14],[15,16]]
Y=np.array([1,2,3,4,5,6,7,8])
KF=KFold(n_splits=4)
print(KF.get_n_splits(X))
输出是4(n_splits)
for train_index, test_index in KF.split(X):
print("TRAIN:", train_index, "TEST:", test_index)
X_train, X_test = X[train_index], X[test_index]
y_train, y_test = Y[train_index], Y[test_index]