重写交叉验证,实现多模型简单的回归融合算法

本文介绍了如何重写交叉验证以实现多模型的简单融合算法。通过对比sklearn的cross_val_predict()和cross_val_score(),阐述了它们在回归场景中的区别。重写交叉验证主要是为了在小数据集和基于回归的决策级融合算法中得到更合适的评估。文中还展示了如何使用自定义的my_cross_val_score()函数,以便在交叉验证过程中同时计算多个评价指标。
摘要由CSDN通过智能技术生成

一、cross_val_predict()简介

sklean中常见的关于交叉验证的方法主要有cross_val_predict()和cross_val_score()。在具体回归场景使用的时候,这两个函数还是有些不同:
1、cross_val_predict()会返回和样本数量一致的数组,如你要交叉验证的样本有10个,标签肯定也是10个,predict交叉验证返回的就是10个预测值;
2、cross_val_score()会根据具体参数scroing的取值返回一个序列,序列的数量等于cv值,比如scoring=neg_mean_squre_error,且采用的是10折交叉验证,返回的序列中就有10个值neg_mse的值;
3、cross_val_predict()其实是将数据集划分cv份之后,每一份都做一次且只做一次测试样本,这样每个样本都会有且只有一个预测值,放在一起就是cross_val_predict()的返回值;但是cross_val_score()却不同,它是将数据集划分cv份之后,每一份在做且只做一次测试集的时候,对应会产生对应的mse值,因此会有cv个mse值,放在一起就是cross_val_score()的返回值;
4、由于回归模型一般都使用mse(rmse),所以一般都是取cross_val_score()返回值的平均值作为模型评价的标准,可能考虑到这个平均后的mse是经历了每一折样本运算的洗礼,所以比较认可这个mse作为生态效度的评价指标,反观cross_val_predict(),可能考虑其仅是一个预测的参考,沾染原始数据的先验信息较多,所以sklean不推荐使用它作为模型泛化性能的参考。
5、在有些场景下,比如小数据集要进行基于回归的、基于多模型的决策级融合算法的时候,由于没法用到具体交叉验证中对于每一折运算的详细情况,就需要重写交叉验证了。

二、重写交叉验证

1、这个函数功能其实就是得到输入样本分成cv份的index字典:

def get_split_index(sample_row, cv_num):
    index_pool = np.arange(0, sample_row, 1)
    # 这里的part_number向上取整,当然也可以向下取整
    part_number = int(np.ceil(sample_row / cv_num))
    split_part = dict(keys=np.arange(0, cv_num, 1))
    for i in np.arange(0
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值