零基础入门数据挖掘 Task5 模型融合方法

最新推荐文章于 2024-08-08 20:45:00 发布

五木123

最新推荐文章于 2024-08-08 20:45:00 发布

阅读量256

点赞数

分类专栏：数据挖掘文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_43129146/article/details/105315885

版权

本文介绍了模型融合的基本方法，包括加权融合、堆叠融合（stacking）以及boosting/bagging（如xgboost, GBDT）。通过K折交叉stack防止过拟合，并探讨了融合在比赛中的应用，如结果融合、特征融合和模型层面的融合，强调不同模型类型的差异性对于提升模型性能的重要性。" 115256833,10789135,使用Flask进行数据可视化,"['Flask', 'web开发', '数据展示', '模板引擎', 'web框架']

摘要由CSDN通过智能技术生成

模型融合

1.加权融合

加权融合分为三大类：1.对于回归问题或者概率形式表示的分类问题----
算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）
2.分类问题----Bagging，投票多数决定
3.综合----排序融合，log融合

2.堆叠融合(stacking)

以第一层多个不同模型的输出值作为第二层模型的输入，依次堆叠多层模型拟合预测。
但是直接在不同模型预测的结果基础上再加一层模型，进行再训练，从而得到模型最终的预测这种方法容易导致过拟合，导致在测试集上效果下降。所以可以采用K折交叉stack的方法。
在这里插入图片描述如图，对于第一层的第i个模型，对于总的训练集的输出值用每折计算的验证集的输出部分表示，每折输出1/k的训练集特征。

同理，对于预测集则取K次交叉验证训练的模型的平均值作为第i个模型的第一层的输出特征。

在这里插入图片描述

3.boosting/bagging

即是xgboost,GBDT用到的提升方法

经验总结(来自DateWhale ML67)

比赛的融合这个问题，个人的看法来说其实涉及多个层面，也是提分和提升模型鲁棒性的一种重要方法：

1）结果层面的融合，这种是最常见的融合方法，其可行的融合方法也有很多，比如根据结果的得分进行加权融合，还可以做Log，exp处理等。在做结果融合的时候，有一个很重要的条件是模型结果的得分要比较近似，然后结果的差异要比较大，这样的结果融合往往有比较好的效果提升。

2）特征层面的融合，这个层面其实感觉不叫融合，准确说可以叫分割，很多时候如果我们用同种模型训练，可以把特征进行切分给不同的模型，然后在后面进行模型或者结果融合有时也能产生比较好的效果。

3）模型层面的融合，模型层面的融合可能就涉及模型的堆叠和设计，比如加Staking层，部分模型的结果作为特征输入等，这些就需要多实验和思考了，基于模型层面的融合最好不同模型类型要有一定的差异，用同种模型不同的参数的收益一般是比较小的。

代码演练

"""回归\分类概率-融合"""
## 生成一些简单的样本数据，test_prei 代表第i个模型的预测值
test_pre1 = [1.2, 3.2, 2.1, 6.2]
test_pre2 = [0.9, 3.1, 2.0, 5.9]
test_pre3 = [1.1, 2.9, 2.2, 6.0]

# y_test_true 代表第模型的真实值
y_test_true = [1, 3, 2, 6] 


import numpy as np
import pandas as pd

## 定义结果的加权平均函数
def Weighted_method(test_pre1,test_pre2,test_pre3,w=[1/3,1/3,1/3]):
    Weighted_result = w[0]*pd.Series(test_pre1)+w[1]*pd.Series(test_pre2)+w[2]*pd.Series(test_pre3)
    return Weighted_result


from sklearn import metrics
# 各模型的预测结果计算MAE
print('Pred1 MAE:',metrics.mean_absolute_error(y_test_true, test_pre1))
print('Pred2 MAE:',metrics.mean_absolute_error(y_test_true, test_pre2))
print('Pred3 MAE:',metrics.mean_absolute_error(y_test_true, test_pre3))

## 根据加权计算MAE
w = [0.3,0.4,0.3] # 定义比重权值
Weighted_pre = Weighted_method(test_pre1,test_pre2,test_pre3,w)
print('Weighted_pre MAE:',metrics.mean_absolute_error(y_test_true, Weighted_pre))


#可以发现加权结果相对于之前的结果是有提升的，这种我们称其为简单的加权平均。

#定义mean平均函数

def Mean_method(test_pre1,test_pre2,test_pre3):
    Mean_result = pd.concat([pd.Series(test_pre1),pd.Series(test_pre2),pd.Series(test_pre3)],axis=1).mean(axis=1)
    return Mean_result

#定义median平均函数，返回种中位值
def Median_method(test_pre1,test_pre2,test_pre3):
    Median_result = pd.concat([pd.Series(test_pre1),pd.Series(test_pre2),pd.Series(test_pre3)],axis=1).median(axis=1)
    return Median_result


"""stacking 融合(回归)"""
from sklearn import linear_model
## 生成一些简单的样本数据，test_prei 代表第i个模型的预测值

def Stacking_method(train_reg1,train_reg2,train_reg3,y_train_true,test_pre1,test_pre2,test_pre3,model_L2= linear_model.LinearRegression()):
    model_L2.fit(pd.concat
                 ([pd.Series(train_reg1),pd.Series

最低0.47元/天解锁文章

五木123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门数据挖掘 Task5 模型融合方法

模型融合1.加权融合加权融合分为三大类：1.对于回归问题或者概率形式表示的分类问题----算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）2.分类问题----Bagging，投票多数决定3.综合----排序融合，log融合2.堆叠融合(stacking)以第一层多个不同模型的输出值作为第二层模型的输入，依次堆叠多层模型拟合预测。但是直接在...
复制链接

扫一扫

专栏目录