【机器学习】kaggle比赛大杀器——模型融合

本文链接：https://blog.csdn.net/gzhzzaa/article/details/124549793

模型融合方法概述🤔

0 写在前面
1 Voting
2 Averaging
3 Bagging
4 Boosting
5 Stacking
show me code, no bb
写在最后
- 谢谢点赞交流！(❁´◡`❁)

更多代码： Gitee主页：https://gitee.com/GZHzzz
博客主页： CSDN：https://blog.csdn.net/gzhzzaa

0 写在前面

本文不涉及到各个算法原理层次的深度，目的在于从宏观上帮助理解这几个模型融合方法

1 Voting

从最简单的Voting说起，这可以说是一种最直观、简单的模型融合。假设对于一个二分类问题，有3个基础模型，那么就采取投票制的方法，投票多者确定为最终的分类🤔

2 Averaging

对于回归问题，一个简单直接的思路是取平均。稍稍改进的方法是进行加权平均。权值可以用排序的方法确定，举个例子，比如A、B、C三种基本模型，模型效果进行排名，假设排名分别是1，2，3，那么给这三个模型赋予的权值分别是3/6、2/6、1/6

这两种方法看似简单，其实后面的高级算法也可以说是基于此而产生的，Bagging或者Boosting都是一种把许多弱分类器这样融合成强分类器的思想😁

3 Bagging

Bagging就是采用有放回的方式进行抽样，用抽样的样本建立子模型,对子模型进行训练，这个过程重复多次，最后进行融合。大概分为这样两步：

重复K次，有放回地重复抽样建模，训练子模型
模型融合，分类问题：voting，回归问题：average
随机森林就是基于Bagging算法的一个典型例子，采用的基分类器是决策树

4 Boosting

Bagging算法可以并行处理，而Boosting的思想是一种迭代的方法，每一次训练的时候都更加关心分类错误的样例，给这些分类错误的样例增加更大的权重，下一次迭代的目标就是能够更容易辨别出上一轮分类错误的样例。最终将这些弱分类器进行加权相加
在这里插入图片描述

同样地，基于Boosting思想的有AdaBoost、GBDT等

5 Stacking

stacking是一种集成思想，很多集成算法都是它的变体。准确地来讲，stacking方法是用“学习”的方法来融合模型（对比一下加权融合、平均融合，这两种是用一个规则、一个公式来融合几个模型的预测结果），也就是把要融合的几个模型的预测结果，通过另外一个学习模型融合起来。这个用于融合的学习模型被称为元学习器（meta-learner），而几个单模型都是初级学习器
Stacking本质上就是这么直接的思路，但是这样肯定是不行的，问题在于初级学习器的得到是有问题的，用整个训练集训练的模型反过来去预测训练集的标签，毫无疑问过拟合是非常非常严重的，因此现在的问题变成了如何在解决过拟合的前提下得到初级学习器，这就变成了熟悉的节奏——K折交叉验证

satcking融合的步骤：

step1：训练T个初级学习器，要使用交叉验证的方法在Train Set上面训练（因为第二阶段建立元学习器的数据是初级学习器输出的，如果初级学习器的泛化能力低下，元学习器也会过拟合）
step2：T个初级学习器在Train Set上输出的预测值，作为元学习器的训练数据D，有T个初级学习器，D中就有T个特征。D的label和训练初级学习器时的label一致
step3：T个初级学习器在Test Set上输出的预测值，作为训练元学习器时的测试集，同样也是有T个模型就有T个特征
step4：训练元学习器，元学习器训练集D的label和训练初级学习器时的label一致

其实在第二层训练元学习器的时候，也可以再利用交叉验证的思想，来提高元学习器在测试集上的预测能力

在这里插入图片描述

show me code, no bb

下面是stacking融合的代码，可以保存成py文件，直接调用😎

def stack_model(oof_1, oof_2, oof_3, predictions_1, predictions_2, predictions_3, y, eval_type='regression'):
   
    # Part 1.数据准备
    # 按行拼接列，拼接验证集所有预测结果
    # train_stack就是final model的训练数据
    train_stack = np.hstack([oof_1, oof_2, oof_3])
    # 按行拼接列，拼接测试集上所有预测结果
    # test_stack就是final model的测试数据
    test_stack = np.hstack([predictions_1, predictions_2, predictions_3])
    # 创建一个和验证集行数相同的全零数组，
    oof = np.zeros(train_stack.shape[0])
    # 创建一个和测试集行数相同的全零数组
    predictions = np.zeros(test_stack.shape[0])
    
    # Part 2.多轮交叉验证（对于stacking第二步骤的交叉验证）：划分为5折，每一折训练集上面用贝叶斯回归来训练模型（模型融合过程）
    #在验证集上
    from sklearn.model_selection import RepeatedKFold
    folds = RepeatedKFold(n_splits=5, n_repeats=2, random_state=2020)
    
    # fold_为折数，trn_idx为每一折训练集index，val_idx为每一折验证集index
    for fold_, (trn_idx, val_idx) in enumerate(folds.split(train_stack, y)):
        # 打印折数信息
        print("fold n°{}".format(fold_+1))
        # 训练集中划分为训练集的样本和标签
        trn_data, trn_y = train_stack[trn_idx], y[trn_idx]
        # 训练集中划分为验证集的样本和标签
        val_data, val_y = train_stack[val_idx], y[val_idx]
        # 开始训练时提示
        print("-" * 10 + "Stacking " + str(fold_+1) + "-" * 10)
        # 采用贝叶斯回归作为结果融合的模型（final model）
        clf = BayesianRidge()
        # 在训练数据上进行训练
        clf.fit(trn_data, trn_y)
        # 在验证数据上进行预测，并将结果记录在oof对应位置（用来计算评估指标）
        oof[val_idx] = clf.predict(val_data)
        # 对测试集数据进行预测，每一轮预测结果占比额外的1/10（多轮交叉验证：n_splits=5, n_repeats=2）
        predictions += clf.predict(test_stack) / (5 * 2)
        
    if eval_type == 'regression':
        print('mean: ',np.sqrt(mean_squared_error(y, oof)))
    if eval_type == 'binary':
        print('mean: ',log_loss(y, oof))
    
    # 返回测试集的预测结果
    return oof, predictions