K折验证(K-fold validation)将数据划分为大小相同的\(K\)个分区。对于每个分区\(i\),在剩余的\(K-1\)个分区上训练模型,然后在分区\(i\)上评估模型。最终分数等于K个分数的平均值。对于不同的训练集-测试集划分,如果模型性能的变化很大,那么这种方法很有用。K折验证也需要独立的验证集进行模型验证。示意图见下图:
代码如下所示:
k = 4
num_validation_samples = len(data) // k
np.random.shuffle(data) #通常需要打乱数据
validation_scores = []
for fold in range(k):
print('processing fold #', i)
# 选择验证数据分区
validation_data = data[num_validation_samples * fold:
num_validation_samples * (fold + 1)]
# 使用剩余数据作为训练数据。注意,+运算符是列表合并,不是求和
training_data = data[: num_validation_samples * fold] +
data[num_validation_samples * (fold + 1):]
# 创建一个全新的模型实例(未训练)
model = build_model()
model.train(train_data)
validation_score = model.evaluate(validation_data)
validation_scores.append(validation_score)
# 最终验证分数:K折验证分数的平均值
validation_score = np.average(validation_scores)
# 在所有非测试数据上训练最终模型
model = get_model()
model.train(data)
test_score = model.evaluate(test_data)