模型融合（Stacking&Blending）以及相关的知识补充

最新推荐文章于 2022-11-09 16:46:18 发布

JZ_daguojiang

最新推荐文章于 2022-11-09 16:46:18 发布

阅读量1.4k

点赞数 1

文章标签： python 机器学习深度学习大数据人工智能

本文链接：https://blog.csdn.net/qq_36348811/article/details/105308397

版权

模型融合之Stacking技术&Blending

Stacking
以下是一张经典的stacking过程图

上半部分是用一个基础的模型进行5折交叉验证，如用XGBOOST作为基础模型Model1,5折交叉验证就是先拿出训练集的四折作为training data，另外一折作为testing data。假设我们原本的训练集有10000行数据，测试集有2500行数据，在进行交叉验证时，我们将训练集进行划分，在每一次的交叉验证中，都会将训练集的8000行作为trainning data,将训练集的2000行作为testing data。

每一次的交叉验证包含两个过程，1. 基于training data训练模型；2. 基于training data训练生成的模型对testing data进行预测。在整个第一次的交叉验证完成之后我们将会得到关于当前testing data的预测值，这将会是一个一维2000行的数据，记为a1。注意！在这部分操作完成后，我们还要对数据集原来的整个testing set进行预测，这个过程会生成2500个预测值，这部分预测值将会作为下一层模型testing data的一部分，记为b1。因为我们进行的是5折交叉验证，所以以上提及的过程将会进行五次，最终会生成针对testing data数据预测的5列2000行的数据a1,a2,a3,a4,a5，对testing set的预测会是5列2500行数据b1,b2,b3,b4,b5。

在完成对Model1的整个步骤之后，我们可以发现a1,a2,a3,a4,a5其实就是对原来整个training set的预测值，将他们拼凑起来，会形成一个10000行一列的矩阵，记为A1。而对于b1,b2,b3,b4,b5这部分数据，我们将各部分相加取平均值，得到一个2500行一列的矩阵，记为B1。

以上就是stacking中一个模型的完整流程，stacking中同一层通常包含多个模型，假设还有Model2: LR，Model3：RF，Model4: GBDT，Model5：SVM，对于这四个模型，我们可以重复以上的步骤，在整个流程结束之后，我们可以得到新的A2,A3,A4,A5,B2,B3,B4,B5矩阵。

在此之后，我们把A1,A2,A3,A4,A5并列合并得到一个10000行五列的矩阵作为training data，B1,B2,B3,B4,B5并列合并得到一个2500行五列的矩阵作为testing data。让下一层的模型，基于他们进一步训练。
以上就是stacking的完整步骤！
alt

Blending
Blending与Stacking大致相同，只是Blending的主要区别在于训练集不是通过K-Fold的CV策略来获得预测值从而生成第二阶段模型的特征，而是建立一个Holdout集，例如10%的训练数据，第二阶段的stacker模型就基于第一阶段模型对这10%训练数据的预测值进行拟合。说白了，就是把Stacking流程中的K-Fold CV 改成 HoldOut CV。

其主要思路是把原始的训练集先分成两部分，比如70%的数据作为新的训练集，剩下的30%作为测试集，在第一层，我们在这70%的数据上训练多个模型，然后取预测那30%的数据的label以及原始数据测试集test的label,在第二层，我们就直接用这30%的数据在第一层的预测结果作为新特征继续训练模型，然后用test集第一层预测的label做特征，用第二层训练的模型做进一步的预测。

优点在于：

比stacking简单（因为不用进行k次的交叉验证来获得stacker feature）
避开了一个信息泄露问题：generlizers和stacker使用了不一样的数据集
在团队建模过程中，不需要给队友分享自己的随机种子

缺点在于：

使用了很少的数据（第二阶段的blender只使用training set10%的量）
blender可能会过拟合（其实大概率是第一点导致的）
stacking使用多次的CV会比较稳健

代码示例

回归问题的融合

1）简单加权平均，结果直接融合

#生成一些简单的样本数据，test_prei 代表第i个模型的预测值
test_pre1 = [1.2, 3.2, 2.1, 6.2]
test_pre2 = [0.9, 3.1, 2.0, 5.9]
test_pre3 = [1.1, 2.9, 2.2, 6.0]

#y_test_true 代表第模型的真实值
y_test_true = [1, 3, 2, 6]

import numpy as np
import pandas as pd

#定义结果的加权平均函数
def Weighted_method(test_pre1,test_pre2,test_pre3,w=[1/3,1/3,1/3]):
    Weighted_result = w[0]*pd.Series(test_pre1)+w[1]*pd.Series(test_pre2)+w[2]*pd.Series(test_pre3)
    return Weighted_result

from sklearn import metrics
#各模型的预测结果计算MAE
print('Pred1 MAE:',metrics.mean_absolute_error(y_test_true, test_pre1))
print('Pred2 MAE:',metrics.mean_absolute_error(y_test_true, test_pre2))
print('Pred3 MAE:',metrics.mean_absolute_error(y_test_true, test_pre3))

各个模型的预测结果：
Pred1 MAE: 0.175
Pred2 MAE: 0.075
Pred3 MAE: 0.1

#根据加权计算MAE
w = [0.3,0.4,0.3] # 定义比重权值
Weighted_pre = Weighted_method(test_pre1,test_pre2,test_pre3,w)
print('Weighted_pre MAE:',metrics.mean_absolute_error(y_test_true, Weighted_pre))

加权计算结果为：
Weighted_pre MAE: 0.0575

可以发现加权结果相对于之前的结果是有提升的，这种我们称其为简单的加权平均。加权的时候可以根据单个模型的结果适当性的调整权值，比如本例中第二个模型的效果好一些，就可以适当将第二个模型的权重设置大一些，但是每个模型的权重差异不宜过大，比如0.8，0.1，0.1，差异过大一般模型融合效果不会很好。

还有一些特殊的形式，比如mean平均，median平均。

#定义结果的加权平均函数
def Mean_method(test_pre1,test_pre2,test_pre3):
    Mean_result = pd.concat([pd.Series(test_pre1),pd.Series(test_pre2),pd.Series(test_pre3)],axis=1).mean(axis=1)
    return Mean_result

Mean_pre = Mean_method(test_pre1,test_pre2,test_pre3)
print('Mean_pre MAE:',metrics.mean_absolute_error(y_test_true, Mean_pre))

Mean_pre MAE: 0.0666666666667

## 定义结果的加权平均函数
def Median_method(test_pre1,test_pre2,test_pre3):
    Median_result = pd.concat([pd.Series(test_pre1),pd.Series(test_pre2),pd.Series(test_pre3)],axis=1).median(axis=1)
    return Median_result

Median_pre = Median_method(test_pre1,test_pre2,test_pre3)
print('Median_pre MAE:',metrics.mean_absolute_error(y_test_true, Median_pre))

Median_pre MAE: 0.075
2)Stacking融合（回归）：

from sklearn import linear_model

def Stacking_method(train_reg1,train_reg2,train_reg3,y_train_true,test_pre1,test_pre2,test_pre3,model_L2= linear_model.LinearRegression()):
    model_L2.fit(pd.concat([pd.Series(train_reg1),pd.Series(train_reg2),pd.Series(train_reg3)],axis=1).values,y_train_true)
    Stacking_result = model_L2.predict(pd.concat([pd.Series(test_pre1),pd.Series(test_pre2),pd.Series(test_pre3)],axis=1).values)
    return Stacking_result

#生成一些简单的样本数据，test_prei 代表第i个模型的预测值
train_reg1 = [3.2, 8.2, 9.1, 5.2]
train_reg2 = [2.9, 8.1, 9.0, 4.9]
train_reg3 = [3.1, 7.9, 9.2, 5.0]
#y_test_true 代表第模型的真实值
y_train_true = [3, 8, 9, 5] 

test_pre1 = [1.2, 3.2, 2.1, 6.2]
test_pre2 = [0.9, 3.1, 2.0, 5.9]
test_pre3 = [1.1, 2.9, 2.2, 6.0]

#y_test_true 代表第模型的真实值
y_test_true = [1, 3, 2, 6]

model_L2= linear_model.

最低0.47元/天解锁文章

JZ_daguojiang

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
模型融合（Stacking&Blending）以及相关的知识补充

目录模型融合之Stacking技术&Blending代码示例回归问题的融合分类模型融合其他一些方法:本示例中的一些知识补充sklearn中predict()与predict_proba()用法区别sklearn中的KFold、StratifiedKFold k折交叉切分的区别AUC值的含义与计算方法模型融合之Stacking技术&BlendingStacking以下是一张经...
复制链接

扫一扫