Datawhale 零基础入门数据挖掘-Task5 模型融合_数据挖掘a1, a2, a5 2a2, a4 3a2, a3 4a1, a2, a4 5a1, a3-CSDN博客

本文链接：https://blog.csdn.net/T_RNA75/article/details/105305037

模型融合的目标

对于多种调参完成的模型进行模型融合。
完成对于多种模型的融合，提交融合结果并打卡

有以下三种方式

简单加权融合: 回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting) 综合：排序融合(Rank averaging)，log融合
stacking/blending: 构建多层模型，并利用预测结果再拟合预测。
boosting/bagging（在xgboost，Adaboost,GBDT中已经用到）: 多树的提升方法

对stacking理论的介绍

上半部分是用一个基础模型进行5折交叉验证，如：用XGBoost作为基础模型Model1，5折交叉验证就是先拿出四折作为training data，另外一折作为testing data。注意：在stacking中此部分数据会用到整个traing set。如：假设我们整个training set包含10000行数据，testing set包含2500行数据，那么每一次交叉验证其实就是对training set进行划分，在每一次的交叉验证中training data将会是8000行，testing data是2000行。

每一次的交叉验证包含两个过程，1. 基于training data训练模型；2. 基于training data训练生成的模型对testing data进行预测。在整个第一次的交叉验证完成之后我们将会得到关于当前testing data的预测值，这将会是一个一维2000行的数据，记为a1。注意！在这部分操作完成后，我们还要对数据集原来的整个testing set进行预测，这个过程会生成2500个预测值，这部分预测值将会作为下一层模型testing data的一部分，记为b1。因为我们进行的是5折交叉验证，所以以上提及的过程将会进行五次，最终会生成针对testing set数据预测的5列2000行的数据a1,a2,a3,a4,a5，对testing set的预测会是5列2500行数据b1,b2,b3,b4,b5。

在完成对Model1的整个步骤之后，我们可以发现a1,a2,a3,a4,a5其实就是对原来整个training set的预测值，将他们拼凑起来，会形成一个10000行一列的矩阵，记为A1。而对于b1,b2,b3,b4,b5这部分数据，我们将各部分相加取平均值，得到一个2500行一列的矩阵，记为B1。

以上就是stacking中一个模型的完整流程，stacking中同一层通常包含多个模型，假设还有Model2: LR，Model3：RF，Model4: GBDT，Model5：SVM，对于这四个模型，我们可以重复以上的步骤，在整个流程结束之后，我们可以得到新的A2,A3,A4,A5,B2,B3,B4,B5矩阵。

在此之后，我们把A1,A2,A3,A4,A5并列合并得到一个10000行五列的矩阵作为training data，B1,B2,B3,B4,B5并列合并得到一个2500行五列的矩阵作为testing data。让下一层的模型，基于他们进一步训练。

以上即为stacking的完整步骤！
转自这篇优秀的博文

https://www.cbedai.net/u011630575/

以下为基础代码讲解

在这里插入图片描述
初始化数据，然后导入函数，并对结果进行计算MAE

后对结果加权定义平均函数

以下为对skacking的介绍

在这里插入图片描述

Blending，其实和Stacking是一种类似的多层模型融合的形式
其主要思路是把原始的训练集先分成两部分，比如70%的数据作为新的训练集，剩下30%的数据作为测试集。
在第一层，我们在这70%的数据上训练多个模型，然后去预测那30%数据的label，同时也预测 test集的label。
在第二层，我们就直接用这30%数据在第一层预测的结果做为新特征继续训练，然后用test集第一层预测的label做特征，用第二层训练的模型做进一步预测
其优点在于：
1.比stacking简单（因为不用进行k次的交叉验证来获得stacker feature） 2.避开了一个信息泄露问题：generlizers和stacker使用了不一样的数据集
缺点在于：
1.使用了很少的数据（第二阶段的blender只使用training set10%的量） 2.blender可能会过拟合 3.stacking使用多次的交叉验证会比较稳健 ‘’’

在这里插入图片描述
可以发现基模型用 ‘KNN’, ‘Random Forest’, ‘Naive Bayes’ 然后再这基础上次级模型加一个 ‘LogisticRegression’，模型测试效果有着很好的提升。
效果如图

还有其他模型的预测方法
将特征放进模型中预测，并将预测结果变换并作为新的特征加入原有特征中再经过模型预测结果（Stacking变化）（可以反复预测多次将结果加入最后的特征中）

在这里插入图片描述

经验总结

比赛的融合这个问题，是提升模型鲁棒性和提分的一种重要方法：
1）结果层面的融合，这种是最常见的融合方法，其可行的融合方法也有很多，比如根据结果的得分进行加权融合，还可以做Log，exp处理等。在做结果融合的时候，有一个很重要的条件是模型结果的得分要比较近似，然后结果的差异要比较大，这样的结果融合往往有比较好的效果提升。
2）特征层面的融合，这个层面其实感觉不叫融合，准确说可以叫分割，很多时候如果我们用同种模型训练，可以把特征进行切分给不同的模型，然后在后面进行模型或者结果融合有时也能产生比较好的效果。
3）模型层面的融合，模型层面的融合可能就涉及模型的堆叠和设计，比如加Staking层，部分模型的结果作为特征输入等，这些就需要多实验和思考了，基于模型层面的融合最好不同模型类型要有一定的差异，用同种模型不同的参数的收益一般是比较小的。

因此我们需要与他人一同合作，以得到最佳分数和成绩
引用自天池阿里云学习平台