重写交叉验证,实现多模型简单的回归融合算法
一、cross_val_predict()简介
sklean中常见的关于交叉验证的方法主要有cross_val_predict()和cross_val_score()。在具体回归场景使用的时候,这两个函数还是有些不同:
1、cross_val_predict()会返回和样本数量一致的数组,如你要交叉验证的样本有10个,标签肯定也是10个,predict交叉验证返回的就是10个预测值;
2、cross_val_score()会根据具体参数scroing的取值返回一个序列,序列的数量等于cv值,比如scoring=neg_mean_squre_error,且采用的是10折交叉验证,返回的序列中就有10个值neg_mse的值;
3、cross_val_predict()其实是将数据集划分cv份之后,每一份都做一次且只做一次测试样本,这样每个样本都会有且只有一个预测值,放在一起就是cross_val_predict()的返回值;但是cross_val_score()却不同,它是将数据集划分cv份之后,每一份在做且只做一次测试集的时候,对应会产生对应的mse值,因此会有cv个mse值,放在一起就是cross_val_score()的返回值;
4、由于回归模型一般都使用mse(rmse),所以一般都是取cross_val_score()返回值的平均值作为模型评价的标准,可能考虑到这个平均后的mse是经历了每一折样本运算的洗礼,所以比较认可这个mse作为生态效度的评价指标,反观cross_val_predict(),可能考虑其仅是一个预测的参考,沾染原始数据的先验信息较多,所以sklean不推荐使用它作为模型泛化性能的参考。
5、在有些场景下,比如小数据集要进行基于回归的、基于多模型的决策级融合算法的时候,由于没法用到具体交叉验证中对于每一折运算的详细情况,就需要重写交叉验证了。
二、重写交叉验证
1、这个函数功能其实就是得到输入样本分成cv份的index字典:
def get_split_index(sample_row, cv_num):
index_pool = np.arange(0, sample_row, 1)
# 这里的part_number向上取整,当然也可以向下取整
part_number = int(np.ceil(sample_row / cv_num))
split_part = dict(keys=np.arange(0, cv_num, 1))
for i in np.arange(0