二手车交易价格预测：模型融合

最新推荐文章于 2024-07-29 10:48:09 发布

Simone_future

最新推荐文章于 2024-07-29 10:48:09 发布

阅读量528

点赞数

文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/Simone_future/article/details/105317172

版权

本文探讨了模型融合在二手车交易价格预测中的应用，包括简单加权融合、stacking/blending以及boosting/bagging等方法。通过实例展示了如何通过加权平均和Stacking提高预测准确性，并强调了模型再训练时防止过拟合的策略。同时，提出了特征、结果和模型层面的融合策略，以增强模型的鲁棒性和性能。

摘要由CSDN通过智能技术生成

模型融合听起来高大上，感觉其实是三个臭皮匠顶个诸葛亮的意思（弱弱弱弱地说）
之前用过加权平均法，但是没有完整地学习模型融合方法，由此结合赛题整理一些资料打卡如下：
资料来源：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.15.1cd8593aDCDfxr&postId=95535

学习内容

模型融合是比赛后期一个重要的环节，大体来说有如下的类型方式。
1.简单加权融合:
回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；
分类：投票（Voting)
综合：排序融合(Rank averaging)，log融合

2.stacking/blending:
构建多层模型，并利用预测结果再拟合预测。

3.boosting/bagging
（在xgboost，Adaboost,GBDT中已经用到）:多树的提升方法

另外，对于如何降低再训练的过拟合性，这里我们一般有两种方法：
1.次级模型尽量选择简单的线性模型
2.利用K折交叉验证

部分代码展示

1）简单加权平均，结果直接融合

#生成一些简单的样本数据，test_prei 代表第i个模型的预测值
test_pre1 = [1.2, 3.2, 2.1, 6.2]
test_pre2 = [0.9, 3.1, 2.0, 5.9]
test_pre3 = [1.1, 2.9, 2.2, 6.0]
#y_test_true 代表第模型的真实值
y_test_true = [1, 3, 2, 6]
import numpy as np
import pandas as pd
## 定义结果的加权平均函数
def Weighted_method(test_pre1,test_pre2,test_pre3,w=[1/3,1/3,1/3]):
    Weighted_result = w[0]*pd.Series(test_pre1)+w[1]*pd.Series(test_pre2)+w[2]*pd.Series(test_pre3)
    return Weighted_result
    from sklearn import metrics
# 各模型的预测结果计算MAE
print('Pred1 MAE:',metrics.mean_absolute_error(y_test_true, test_pre1))
print('Pred2 MAE:',metrics.mean_absolute_error(y_test_true, test_pre2))
print('Pred3 MAE:',metrics.mean_absolute_error(y_test_true, test_pre3))
## 根据加权计算MAE
w = [0.3,0.4,0.3] # 定义比重权值
Weighted_pre = Weighted_method(test_pre1,test_pre2,test_pre3,w)
print('Weighted_pre MAE:',metrics.mean_absolute_error(y_test_true, Weighted_pre))

可以发现加权结果相对于之前的结果是有提升的，这种我们称其为简单的加权平均。
还有一些特殊的形式，比如mean平均，median平均
（2）Stacking融合回归

from sklearn import linear_model
def Stacking_method(train_reg1,train_reg2,train_reg3,y_train_true,test_pre1,test_pre2,test_pre3,model_L2= linear_model.LinearRegression()):
    model_L2.fit(pd.concat([pd.Series(train_reg1),pd.Series(train_reg2),pd.Series(train_reg3)],axis=1).values,y_train_true)
    Stacking_result = model_L2.predict(pd.concat([pd.Series(test_pre1),pd.Series(test_pre2),pd.Series(test_pre3)],axis=1).values)
    return Stacking_result
    ## 生成一些简单的样本数据，test_prei 代表第i个模型的预测值
train_reg1 = [3.2, 8.2, 9.1, 5.2]
train_reg2 = [2.9, 8.1, 9.0, 4.9]
train_reg3 = [3.1, 7.9, 9.2, 5.0]
# y_test_true 代表第模型的真实值
y_train_true = [3, 8, 9, 5] 
test_pre1 = [1.2, 3.2, 2.1, 6.2]
test_pre2 = [0.9, 3.1, 2.0, 5.9]
test_pre3 = [1.1, 2.9, 2.2, 6.0]
# y_test_true 代表第模型的真实值
y_test_true = [1, 3, 2, 6] 
model_L2= linear_model.LinearRegression()
Stacking_pre = Stacking_method(train_reg1,train_reg2,train_reg3,y_train_true,
                               test_pre1,test_pre2,test_pre3,model_L2)
print('Stacking_pre MAE:',metrics.mean_absolute_error(y_test_true, Stacking_pre))