金融风控数据挖掘-Task5

最新推荐文章于 2024-07-01 19:09:25 发布

Captainphiora

最新推荐文章于 2024-07-01 19:09:25 发布

阅读量189

点赞数

本文链接：https://blog.csdn.net/Captainphiora/article/details/116405026

版权

金融风控数据挖掘-Task5

一、学习知识点概要
二、学习内容
三、学习问题与解答
- 1、stacking不一定万能
- 2、Kaggle的意义
四、学习思考与总结

一、学习知识点概要

此次学习的主要内容为模型融合，旨在对voting、averaging、bagging、boosting、stacking、blending等方法有一个大致的了解。

二、学习内容

1、voting

此为常见的投票机制，少数服从多数，针对分类模型。假设对于一个二分类问题，有3个基础模型，那么就采取投票制的方法，投票多者确定为最终的分类。

# 简单投票
from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = XGBClassifier(learning_rate=0.1, n_estimators=150, max_depth=4, min_child_weight=2, subsample=0.7,objective='binary:logistic')

vclf = VotingClassifier(estimators=[('lr', clf1), ('rf', clf2), ('xgb', clf3)])
vclf = vclf .fit(x_train,y_train)
print(vclf .predict(x_test))

# 加权投票
# 在VotingClassifier中加入参数 voting='soft', weights=[2, 1, 1]，weights用于调节基模型的权重

from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = XGBClassifier(learning_rate=0.1, n_estimators=150, max_depth=4, min_child_weight=2, subsample=0.7,objective='binary:logistic')

vclf = VotingClassifier(estimators=[('lr', clf1), ('rf', clf2), ('xgb', clf3)], voting='soft', weights=[2, 1, 1])
vclf = vclf .fit(x_train,y_train)
print(vclf .predict(x_test))

2、averaging

averaging一般针对回归问题，简单直接的思路是取平均，稍稍改进的方法是进行加权平均。

3、bagging

bagging是Bootstrap AGGregatING的缩写，简而言之，就是通过 bootstrap 取样（可重复取样）的方法构造多个不同的训练集。之后在每个训练集上训练相应的基学习器，最后将这些基学习器聚合起来得到最终的模型。随机森林就是基于Bagging算法的一个典型例子，采用的基分类器是决策树，利用python可以直接调用。