重写交叉验证，实现多模型简单的回归融合算法

最新推荐文章于 2024-04-07 17:52:53 发布

小狗霍利g

最新推荐文章于 2024-04-07 17:52:53 发布

阅读量1.6k

点赞数

文章标签：机器学习深度学习算法 python 数据挖掘

本文链接：https://blog.csdn.net/HyenaV/article/details/105562181

版权

本文介绍了如何重写交叉验证以实现多模型的简单融合算法。通过对比sklearn的cross_val_predict()和cross_val_score()，阐述了它们在回归场景中的区别。重写交叉验证主要是为了在小数据集和基于回归的决策级融合算法中得到更合适的评估。文中还展示了如何使用自定义的my_cross_val_score()函数，以便在交叉验证过程中同时计算多个评价指标。

摘要由CSDN通过智能技术生成

一、cross_val_predict()简介

sklean中常见的关于交叉验证的方法主要有cross_val_predict()和cross_val_score()。在具体回归场景使用的时候，这两个函数还是有些不同：
1、cross_val_predict()会返回和样本数量一致的数组，如你要交叉验证的样本有10个，标签肯定也是10个，predict交叉验证返回的就是10个预测值；
2、cross_val_score()会根据具体参数scroing的取值返回一个序列，序列的数量等于cv值，比如scoring=neg_mean_squre_error，且采用的是10折交叉验证，返回的序列中就有10个值neg_mse的值；
3、cross_val_predict()其实是将数据集划分cv份之后，每一份都做一次且只做一次测试样本，这样每个样本都会有且只有一个预测值，放在一起就是cross_val_predict()的返回值；但是cross_val_score()却不同，它是将数据集划分cv份之后，每一份在做且只做一次测试集的时候，对应会产生对应的mse值，因此会有cv个mse值，放在一起就是cross_val_score()的返回值；
4、由于回归模型一般都使用mse(rmse)，所以一般都是取cross_val_score()返回值的平均值作为模型评价的标准，可能考虑到这个平均后的mse是经历了每一折样本运算的洗礼，所以比较认可这个mse作为生态效度的评价指标，反观cross_val_predict(),可能考虑其仅是一个预测的参考，沾染原始数据的先验信息较多，所以sklean不推荐使用它作为模型泛化性能的参考。
5、在有些场景下，比如小数据集要进行基于回归的、基于多模型的决策级融合算法的时候，由于没法用到具体交叉验证中对于每一折运算的详细情况，就需要重写交叉验证了。

二、重写交叉验证

1、这个函数功能其实就是得到输入样本分成cv份的index字典：

def get_split_index(sample_row, cv_num):
    index_pool = np.arange(0, sample_row, 1)
    # 这里的part_number向上取整，当然也可以向下取整
    part_number = int(np.ceil(sample_row / cv_num))
    split_part = dict(keys=np.arange(0, cv_num, 1))
    for i in np.arange(0

最低0.47元/天解锁文章

小狗霍利g

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
重写交叉验证，实现多模型简单的回归融合算法

重写交叉验证，实现多模型简单的回归融合算法一、cross_val_predict()简介二、重写交叉验证三、使用多模型的简单融合算法四、使用my_cross_val_score()一、cross_val_predict()简介sklean中常见的关于交叉验证的方法主要有cross_val_predict()和cross_val_score()。在具体回归场景使用的时候，这两个函数还是有些不同：...
复制链接

扫一扫