集成学习-Stacking集成学习算法（task13.2021.0512）

最新推荐文章于 2024-05-04 11:56:37 发布

langshao668

最新推荐文章于 2024-05-04 11:56:37 发布

阅读量732

点赞数

分类专栏：集成学习

本文链接：https://blog.csdn.net/langshao668/article/details/116721136

版权

集成学习-Stacking集成学习算法（task13.2021.0512）

文章目录

集成学习-Stacking集成学习算法（task13.2021.0512）
一、Stacking集成学习算法
二、代码
Blending与Stacking对比
总结

一、Stacking集成学习算法

基于前面对Blending集成学习算法的讨论，我们知道：Blending在集成的过程中只会用到验证集的数据，对数据实际上是一个很大的浪费。为了解决这个问题，我们详细分析下Blending到底哪里出现问题并如何改进。在Blending中，我们产生验证集的方式是使用分割的方式，产生一组训练集和一组验证集，这让我们联想到交叉验证的方式。顺着这个思路，我们对Stacking进行建模(如下图)：
在这里插入图片描述

首先将所有数据集生成测试集和训练集（假如训练集为10000,测试集为2500行），那么上层会进行5折交叉检验，使用训练集中的8000条作为训练集，剩余2000行作为验证集（橙色）。
每次验证相当于使用了蓝色的8000条数据训练出一个模型，使用模型对验证集进行验证得到2000条数据，并对测试集进行预测，得到2500条数据，这样经过5次交叉检验，可以得到中间的橙色的5 2000条验证集的结果(相当于每条数据的预测结果)，5 2500条测试集的预测结果。
接下来会将验证集的5 2000条预测结果拼接成10000行长的矩阵，标记为 A1A1 ，而对于5 2500行的测试集的预测结果进行加权平均，得到一个2500一列的矩阵，标记为 B1B1 。
上面得到一个基模型在数据集上的预测结果 A1A1 、 B1B1 ,这样当我们对3个基模型进行集成的话，相于得到了 A1A1 、 A2A2 、 A3A3 、 B1B1 、 B2B2 、 B3B3 六个矩阵。
之后我们会将 A1A1 、 A2A2 、 A3A3 并列在一起成10000行3列的矩阵作为training data, B1B1 、 B2B2 、 B3B3 合并在一起成2500行3列的矩阵作为testing data，让下层学习器基于这样的数据进行再训练。
再训练是基于每个基础模型的预测结果作为特征（三个特征），次学习器会学习训练如果往这样的基学习的预测结果上赋予权重w，来使得最后的预测最为准确。

二、代码

代码如下（示例）：

# 1. 简单堆叠3折CV分类
from sklearn import datasets

iris = datasets.load_iris()
X, y = iris.data[:, 1:3], iris.target
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import StackingCVClassifier

RANDOM_SEED = 42

clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=RANDOM_SEED)
clf3 = GaussianNB()
lr = LogisticRegression()

# Starting from v0.16.0, StackingCVRegressor supports
# `random_state` to get deterministic result.
sclf = StackingCVClassifier(classifiers=[clf1, clf2, clf3],  # 第一层分类器
                            meta_classifier=lr,   # 第二层分类器
                            random_state=RANDOM_SEED)

print('3-fold cross validation:\n')

for clf, label in zip([clf1, clf2, clf3, sclf], ['KNN', 'Random Forest', 'Naive Bayes','StackingClassifier']):
    scores = cross_val_score(clf, X, y, cv=3, scoring='accuracy')
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

3-fold cross validation:

Accuracy: 0.91 (+/- 0.01) [KNN]
Accuracy: 0.95 (+/- 0.01) [Random Forest]
Accuracy: 0.91 (+/- 0.02) [Naive Bayes]
Accuracy: 0.93 (+/- 0.02) [StackingClassifier]

# 我们画出决策边界
from mlxtend.plotting import plot_decision_regions
import matplotlib.gridspec as gridspec
import itertools

gs = gridspec.GridSpec(2, 2)
fig = plt.figure(figsize=(10,8

最低0.47元/天解锁文章

langshao668

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
集成学习-Stacking集成学习算法（task13.2021.0512）

集成学习-Stacking集成学习算法（task13.2021.0512）文章目录集成学习-Stacking集成学习算法（task13.2021.0512）一、Stacking集成学习算法二、代码Blending与Stacking对比总结一、Stacking集成学习算法基于前面对Blending集成学习算法的讨论，我们知道：Blending在集成的过程中只会用到验证集的数据，对数据实际上是一个很大的浪费。为了解决这个问题，我们详细分析下Blending到底哪里出现问题并如何改进。在Blending中，
复制链接

扫一扫