集成学习总结 & Stacking方法详解

最新推荐文章于 2024-06-18 12:12:06 发布

渔好学

最新推荐文章于 2024-06-18 12:12:06 发布

阅读量837

点赞数

分类专栏：机器学习算法

机器学习算法专栏收录该内容

33 篇文章 1 订阅

订阅专栏

集成学习主要分为 bagging， boosting 和 stacking方法。本文主要是介绍stacking方法及其应用。但是在总结之前还是先回顾一下继承学习。

这部分主要转自知乎。

1. Bagging方法：

给定一个大小为n的训练集 D，Bagging算法从中均匀、有放回地选出 m个大小为 n' 的子集Di，作为新的训练集。在这 m个训练集上使用分类、回归等算法，则可得到 m个模型，再通过取平均值、取多数票等方法综合产生预测结果，即可得到Bagging的结果。

（转自知乎）

2. Boosting 方法

加入的过程中，通常根据它们的上一轮的分类准确率给予不同的权重。加和弱学习者之后，数据通常会被重新加权，来强化对之前分类错误数据点的分类，其中一个经典的提升算法例子是AdaBoost。

（来自知乎）

3. Stacking 方法：

将训练好的所有基模型对整个训练集进行预测，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值，最后基于新的训练集进行训练。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测：

下面我们介绍一款功能强大的stacking利器，mlxtend库，它可以很快地完成对sklearn模型地stacking。

主要有以下几种使用方法吧：

I. 最基本的使用方法，即使用前面分类器产生的特征输出作为最后总的meta-classifier的输入数据


 
 
   
   
    
    
   
   
   
   
    
    
     
     from sklearn 
     
     import datasets
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     iris = datasets.load_iris()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     X, y = iris.data[:, 
     
     1:
     
     3], iris.target
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn 
     
     import model_selection
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn.linear_model 
     
     import LogisticRegression
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn.neighbors 
     
     import KNeighborsClassifier
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn.naive_bayes 
     
     import GaussianNB 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn.ensemble 
     
     import RandomForestClassifier
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from mlxtend.classifier 
     
     import StackingClassifier
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     import numpy 
     
     as np
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     clf1 = KNeighborsClassifier(n_neighbors=
     
     1)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     clf2 = RandomForestClassifier(random_state=
     
     1)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     clf3 = GaussianNB()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     lr = LogisticRegression()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     sclf = StackingClassifier(classifiers=[clf1, clf2, clf3], 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                               meta_classifier=lr)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     print(
     
     '3-fold cross validation:\n')
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     for clf, label 
     
     in zip([clf1, clf2, clf3, sclf], 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                           [
     
     'KNN', 
    
    
   
   

   
   
    
    
   
   
   
   
    
                           
     
     'Random Forest', 
    
    
   
   

   
   
    
    
   
   
   
   
    
                           
     
     'Naive Bayes',
    
    
   
   

   
   
    
    
   
   
   
   
    
                           
     
     'StackingClassifier']):
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         scores = model_selection.cross_val_score(clf, X, y, 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                                                   cv=
     
     3, scoring=
     
     'accuracy')
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         print(
     
     "Accuracy: %0.2f (+/- %0.2f) [%s]" 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
               % (scores.mean(), scores.std(), label))

II. 另一种使用第一层基本分类器产生的类别概率值作为meta-classfier的输入，这种情况下需要将StackingClassifier的参数设置为 use_probas=True。如果将参数设置为 average_probas=True，那么这些基分类器对每一个类别产生的概率值会被平均，否则会拼接。

例如有两个基分类器产生的概率输出为：

classifier 1: [0.2, 0.5, 0.3]

classifier 2: [0.3, 0.4, 0.4]

1) average = True :

产生的meta-feature 为：[0.25, 0.45, 0.35]

2) average = False:

产生的meta-feature为：[0.2, 0.5, 0.3, 0.3, 0.4, 0.4]


 
 
   
   
    
    
   
   
   
   
    
    
     
     from sklearn 
     
     import datasets
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     iris = datasets.load_iris()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     X, y = iris.data[:, 
     
     1:
     
     3], iris.target
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn 
     
     import model_selection
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn.linear_model 
     
     import LogisticRegression
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn.neighbors 
     
     import KNeighborsClassifier
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn.naive_bayes 
     
     import GaussianNB 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn.ensemble 
     
     import RandomForestClassifier
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from mlxtend.classifier 
     
     import StackingClassifier
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     import numpy 
     
     as np
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     clf1 = KNeighborsClassifier(n_neighbors=
     
     1)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     clf2 = RandomForestClassifier(random_state=
     
     1)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     clf3 = GaussianNB()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     lr = LogisticRegression()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     sclf = StackingClassifier(classifiers=[clf1, clf2, clf3],
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                               use_probas=
     
     True,
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                               average_probas=
     
     False,
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                               meta_classifier=lr)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     print(
     
     '3-fold cross validation:\n')
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     for clf, label 
     
     in zip([clf1, clf2, clf3, sclf], 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                           [
     
     'KNN', 
    
    
   
   

   
   
    
    
   
   
   
   
    
                           
     
     'Random Forest', 
    
    
   
   

   
   
    
    
   
   
   
   
    
                           
     
     'Naive Bayes',
    
    
   
   

   
   
    
    
   
   
   
   
    
                           
     
     'StackingClassifier']):
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         scores = model_selection.cross_val_score(clf, X, y, 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                                                   cv=
     
     3, scoring=
     
     'accuracy')
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         print(
     
     "Accuracy: %0.2f (+/- %0.2f) [%s]" 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
               % (scores.mean(), scores.std(), label))

III. 另外一种方法是对训练基中的特征维度进行操作的，这次不是给每一个基分类器全部的特征，而是给不同的基分类器分不同的特征，即比如基分类器1训练前半部分特征，基分类器2训练后半部分特征（可以通过sklearn 的pipelines 实现）。最终通过StackingClassifier组合起来。


 
 
   
   
    
    
   
   
   
   
    
    
     
     from sklearn.datasets 
     
     import load_iris
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from mlxtend.classifier 
     
     import StackingClassifier
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from mlxtend.feature_selection 
     
     import ColumnSelector
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn.pipeline 
     
     import make_pipeline
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from sklearn.linear_model 
     
     import LogisticRegression
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     iris = load_iris()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     X = iris.data
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     y = iris.target
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     pipe1 = make_pipeline(ColumnSelector(cols=(
     
     0, 
     
     2)),
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                           LogisticRegression())
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     pipe2 = make_pipeline(ColumnSelector(cols=(
     
     1, 
     
     2, 
     
     3)),
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                           LogisticRegression())
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     sclf = StackingClassifier(classifiers=[pipe1, pipe2], 
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                               meta_classifier=LogisticRegression())
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     sclf.fit(X, y)

StackingClassifier 使用API及参数解析：

StackingClassifier(classifiers, meta_classifier, use_probas=False, average_probas=False, verbose=0, use_features_in_secondary=False)

参数：

classifiers : 基分类器，数组形式，[cl1, cl2, cl3]. 每个基分类器的属性被存储在类属性 self.clfs_.
meta_classifier : 目标分类器，即将前面分类器合起来的分类器
use_probas : bool (default: False) ，如果设置为True，那么目标分类器的输入就是前面分类输出的类别概率值而不是类别标签
average_probas : bool (default: False)，用来设置上一个参数当使用概率值输出的时候是否使用平均值。
verbose : int, optional (default=0)。用来控制使用过程中的日志输出，当 verbose = 0时，什么也不输出， verbose = 1，输出回归器的序号和名字。verbose = 2，输出详细的参数信息。verbose > 2, 自动将verbose设置为小于2的，verbose -2.
use_features_in_secondary : bool (default: False). 如果设置为True，那么最终的目标分类器就被基分类器产生的数据和最初的数据集同时训练。如果设置为False，最终的分类器只会使用基分类器产生的数据训练。

属性：
clfs_ : 每个基分类器的属性，list, shape 为 [n_classifiers]。
meta_clf_ : 最终目标分类器的属性

方法：

fit(X, y)
fit_transform(X, y=None, fit_params)
get_params(deep=True)，如果是使用sklearn的GridSearch方法，那么返回分类器的各项参数。
predict(X)
predict_proba(X)
score(X, y, sample_weight=None)，对于给定数据集和给定label，返回评价accuracy
set_params(params)，设置分类器的参数，params的设置方法和sklearn的格式一样

------------------------------------------EOF---------------------------------

参考文献：

https://zhihu.com/question/29036379/answer/111637662

https://rasbt.github.io/mlxtend/user_guide/classifier/StackingClassifier/

https://zh.wikipedia.org/zh-hans/Bagging%E7%AE%97%E6%B3%95

Wolpert, David H. "Stacked generalization." Neural networks 5.2 (1992): 241-259.

渔好学

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
集成学习总结 & Stacking方法详解

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/willduan1/article/details/73618677 集成学习主要分为 bagging， boosting 和 stacking方法。本文主要是介绍st...
复制链接

扫一扫

专栏目录