零基础入门数据挖掘-Task5 模型融合

最新推荐文章于 2024-07-22 15:15:45 发布

GCZZZ

最新推荐文章于 2024-07-22 15:15:45 发布

阅读量184

点赞数

分类专栏：数据挖掘入门文章标签：数据挖掘

本文链接：https://blog.csdn.net/GCZZZ/article/details/105314686

版权

数据挖掘入门专栏收录该内容

4 篇文章 0 订阅

订阅专栏

什么是模型融合

先产生一组个体学习器，然后利用某种策略将它们结合起来，加强模型效果。周志华和李航老师的书中都证明随着个体学习器数目的增大，集成的错误率将呈指数级下降，最终趋向于零。因此，模型融合被广泛应用。
简单来说就是通过对一组的基分类器以某种方式进行组合，以提升模型整体性能的方法。

常用模型融合方法

多模型投票 VotingClassifier()
生成用0填充的数组 np.zeros()
sklearn 预测概率矩阵 predict_porba()
模型融合 blending 多折模型融合 stacking
其他集成学习方法 bagging boosting
嵌套循环 itertools.product()
也可以生成特征作为新特征

import itertools #迭代器
import matplotlib.gridspec as gridspec #非对称子图

from sklearn.neighbors import KNeighborsClassifier #k近邻分类器
from sklearn.naive_bayes import GaussianNB #朴素贝叶斯
from mlxtend.classifier import StackingClassifier

from mlxtend.plotting import plot_learning_curves #学习曲线
from mlxtend.plotting import plot_decision_regions #决策边界

部分代码示例

XGBoost的五折交叉回归验证试验

## xgb
xgr = xgb.XGBRegressor(n_estimators=120, learning_rate=0.1, subsample=0.8,\
        colsample_bytree=0.9, max_depth=7) # ,objective ='reg:squarederror'
scores_train = []
scores = []
## 5折交叉验证方式
sk=StratifiedKFold(n_splits=5,shuffle=True,random_state=0)
for train_ind,val_ind in sk.split(X_data,Y_data):
    train_x=X_data.iloc[train_ind].values
    train_y=Y_data.iloc[train_ind]
    val_x=X_data.iloc[val_ind].values
    val_y=Y_data.iloc[val_ind]
    xgr.fit(train_x,train_y)
    pred_train_xgb=xgr.predict(train_x)
    pred_xgb=xgr.predict(val_x)
    score_train = mean_absolute_error(train_y,pred_train_xgb)
    scores_train.append(score_train)
    score = mean_absolute_error(val_y,pred_xgb)
    scores.append(score)
print('Train mae:',np.mean(score_train))
print('Val mae',np.mean(scores))

Stacking融合

## 第一层
train_lgb_pred = model_lgb.predict(x_train)
train_xgb_pred = model_xgb.predict(x_train)
train_gbdt_pred = model_gbdt.predict(x_train)
Strak_X_train = pd.DataFrame()
Strak_X_train['Method_1'] = train_lgb_pred
Strak_X_train['Method_2'] = train_xgb_pred
Strak_X_train['Method_3'] = train_gbdt_pred
Strak_X_val = pd.DataFrame()
Strak_X_val['Method_1'] = val_lgb
Strak_X_val['Method_2'] = val_xgb
Strak_X_val['Method_3'] = val_gbdt
Strak_X_test = pd.DataFrame()
Strak_X_test['Method_1'] = subA_lgb
Strak_X_test['Method_2'] = subA_xgb
Strak_X_test['Method_3'] = subA_gbdt
## level2-method 
model_lr_Stacking = build_model_lr(Strak_X_train,y_train)
## 训练集
train_pre_Stacking = model_lr_Stacking.predict(Strak_X_train)
print('MAE of Stacking-LR:',mean_absolute_error(y_train,train_pre_Stacking))
## 验证集
val_pre_Stacking = model_lr_Stacking.predict(Strak_X_val)
print('MAE of Stacking-LR:',mean_absolute_error(y_val,val_pre_Stacking))
## 预测集
print('Predict Stacking-LR...')
subA_Stacking = model_lr_Stacking.predict(Strak_X_test)
subA_Stacking[subA_Stacking<10]=10  ## 去除过小的预测值
sub = pd.DataFrame()
sub['SaleID'] = TestA_data.SaleID
sub['price'] = subA_Stacking
sub.to_csv('./sub_Stacking.csv',index=False)

总结

结果层面的融合，这种是最常见的融合方法，其可行的融合方法也有很多，比如根据结果的得分进行加权融合，还可以做Log，exp处理等。在做结果融合的时候，有一个很重要的条件是模型结果的得分要比较近似，然后结果的差异要比较大，这样的结果融合往往有比较好的效果提升。
特征层面的融合，这个层面其实感觉不叫融合，准确说可以叫分割，很多时候如果我们用同种模型训练，可以把特征进行切分给不同的模型，然后在后面进行模型或者结果融合有时也能产生比较好的效果。
模型层面的融合，模型层面的融合可能就涉及模型的堆叠和设计，比如加Staking层，部分模型的结果作为特征输入等，这些就需要多实验和思考了，基于模型层面的融合最好不同模型类型要有一定的差异，用同种模型不同的参数的收益一般是比较小的。

GCZZZ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
零基础入门数据挖掘-Task5 模型融合

什么是模型融合先产生一组个体学习器，然后利用某种策略将它们结合起来，加强模型效果。周志华和李航老师的书中都证明随着个体学习器数目的增大，集成的错误率将呈指数级下降，最终趋向于零。因此，模型融合被广泛应用。简单来说就是通过对一组的基分类器以某种方式进行组合，以提升模型整体性能的方法。常用模型融合方法多模型投票 VotingClassifier()生成用0填充的数组 np.zeros()s...
复制链接

扫一扫

专栏目录