集成学习：Bagging, Boosting, Stacking与Voting策略-CSDN博客

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
model_DT=DecisionTreeClassifier(random_state=1) #实例化基模型，本例使用决策树
bag_DT=BaggingClassifier(n_estimators=100,       #基模型个数 
                         max_samples=1.0   #基模型使用的训练集中样本的比例(float)或个数(int)  
                         max_features=1.0   #基模型使用的训练集中特征的比例(float)或个数(int) 
                         base_estimator=model_DT,  #基模型
                         oob_score=True,          #计算袋外样本得分
                         random_state=10,
                         bootstrap=True            #有放回抽样本
                         bootstrap_features=True   #有放回的抽特征  
                            )
bag_DT.fit(X_train,y_train)

BaggingRegression

from sklearn.ensemble import BaggingRegressor
BR=BaggingRegressor()
...

RandomForest

基模型为决策树

Random：

对样本进行有放回抽样（boostrap）

对特征进行随机抽样（共𝑑个特征，一般随机选取𝑚 = $log_{2}d$ + 1）

from sklearn.ensemble import RandomForestClassifier
model=RandomForestClassifier(n_estimators=100,
    criterion='gini',
    max_depth=None,
    min_samples_split=2,
    min_samples_leaf=1,
    min_weight_fraction_leaf=0.0,
    max_features='auto',
    random_state=1,
    oob_score=True)
model.fit(X_train,y_train)

2、提升法（ Boosting ）

AdaBoostClassifier

Boosting的典型代表，利用同一训练样本的不同加权版本，训练一组弱分类器，然后把这些弱分类器以加权的形式集成起来，形成一个强分类器

特点：

改变样本权重的方式训练弱分类器，后一个弱分类器基于前一个分类器的结果来训练

能够自动学习多个弱分类器集成时的分类器权重，权重越高，证明弱分类器效果更好

from sklearn.ensemble import AdaBoostClassifier
model_ada=AdaBoostClassifier(base_estimator=None,  #default DecisionTreeClassifier
                            n_estimators=50，
                            random_state=1,
                            algorithm="SAMME")
model_ada.fit(X_train,y_train)

Gradient Boosting Decision Tree

梯度提升树，Gradient Boosting Decision Tree

以回归树为基学习器的boosting方法

用损失函数的负梯度来拟合每轮损失的近似值

输入：训练集𝑇 = { 𝑥1, 𝑦1 , … , (𝑥𝑚, 𝑦𝑚)}，最大迭代次数𝑇，损失函数L

输出强学习器𝑓(𝑥)：

初始化弱学习器：

对迭代轮数𝑡 = 1,2, … , 𝑇：

对样本𝑖 = 1,2, … , 𝑚，计算负梯度：

利用( $x_{ti}$ , $r_{ti}$ )拟合一棵CART回归树，得到第𝑡棵树，其对应的叶子节点区域为𝑅𝑡𝑖,𝑗 = 1,2, … ,𝐽，𝐽为叶子节点个数

对于叶子区域𝑗 = 1,2, … ,𝐽，计算最佳拟合值：

更新强学习器：

强学习器：

$f(x) = f_{0}x +\sum_{t=1}^{T}\sum_{j=1}^{J}c^{_{tj}}I(x\in R_{ti})$

from sklearn.ensemble import GradientBoostingClassifier
model_gbdt=GradientBoostingClassifier(random_state=10,subsample=.7)
model_gbdt.fit(X_train,y_train)

3、堆叠法（Stacking）

stacking 的是学习几个不同的弱学习器，并通过训练一个综合模型来组合它们，然后基于这些弱模型返回的多个预测结果输出最终的预测结果。

因此，要构建 stacking 模型，需要确定 n个学习器以及组合它们的模型。

例如，对于分类问题来说，我们可以选择 KNN 分类器、logistic 回归和SVM 作为弱学习器，并决定学习神经网络作为综合模型。然后，神经网络将会把三个弱学习器的输出作为输入，并返回基于该输入的最终预测。

from sklearn.ensemble import StackingClassifier
from sklearn.ensemble import StackingRegressor

4、VotingClassifier

组合不同的基分类器，最终通过多数投票（硬投票）或概率平均（软投票）的方式来预测样本类别

硬投票：

对于一个样本，每个基分类器都预测一个类别，所有的基分类器预测类别中最多的类将被作为最终结果。

软投票：

在每个基分类器输出测试样本属于各个类的概率，将所有基分类器对每个类的预测概率进行平均得到最终测试样本属于每个类的概率，从中选择拥有最大概率的类。

对每个基分类器设置权重，用于对预测概率求进行加权平均，控制每个基分类器的贡献。

model_DT=DecisionTreeClassifier(random_state=1)
model_LR=LogisticRegression(random_state=1, class_weight='balanced')
#多模型的硬投票
model_vote_hard = VotingClassifier(estimators=[('DT',model_DT), ('LR',model_LR)])
model_vote_hard.fit(X_train, y_train)
#多模型的软投票
model_vote_soft = VotingClassifier(estimators=[('DT',model_DT), ('LR',model_LR)], voting='soft')
model_vote_soft.fit(X_train, y_train)

#####################################################################################

best_RF = RandomForestClassifier(max_features=6, n_estimators=500, random_state=10)
best_gbdt = GradientBoostingClassifier(n_estimators=200, learning_rate=0.01, subsample=0.3, random_state=10)
#集成模型的硬投票
model_vote_soft = VotingClassifier(estimators=[('RF',best_RF), ('GBDT',best_gbdt)])
model_vote_soft.fit(X_train, y_train)
#集成模型的软投票
model_vote_soft = VotingClassifier(estimators=[('RF',best_RF), ('GBDT',best_gbdt)], voting='soft')
model_vote_soft.fit(X_train, y_train)