集成学习之Stacking方法（数据挖掘竞赛利器）

最新推荐文章于 2024-06-16 23:28:46 发布

很随便的wei

最新推荐文章于 2024-06-16 23:28:46 发布

阅读量1.3k

点赞数

分类专栏：机器学习 python 文章标签：机器学习数据挖掘

本文链接：https://blog.csdn.net/guowei_huai/article/details/116767534

版权

机器学习同时被 2 个专栏收录

13 篇文章 5 订阅

订阅专栏

python

12 篇文章 0 订阅

订阅专栏

集成学习的方法主要分成三种，boagging,boosting和Stacking，Stacking是一种有层次的融合模型。下面会先对Stacking过程进行解读，然后通过代码来实现Stacking。

一、Stacking的步骤

Stacking的思想是训练模型去学习使用底层学习器的预测结果，然后次学习器会基于模型的预测结果再次进行训练。
单个模型生成预测结果的过程

单个基模型生成预测结果的过程

我们先把数据集分为测试集和训练集(设训练集数量为10000，测试集数量为2500)。这里我们在上层去采用5折交叉验证来训练，同时我们再将训练集的10000条数据分类喂养集(8000)和验证集(2000[图中的橙色])。
由此，我们每次都是用蓝色部分的8000条数据去训练单个模型，再使用该模型在2000条验证集上验证得到2000条数据。同时对测试集进行预测，得到2500条数据。经过五次交叉验证后，得到如图所示结果。
此时，得到了52000条的验证集结果（就是每条数据的预测结果），52500条测试集的测试集结果。将52000条的结果拼接成一个长为10000行的矩阵，记为A1，对于52999条测试集的预测结果进行加权平均后得到行为2500，列为1的矩阵，记为B1.
以上是通过一个基模型的预测结果A1和B1，如果我们对三个模型集成，就得到了A1、A2、A3、B1、B2、B3这6个矩阵（改变基模型，重复以上步骤）。将A1、A2、A3合成10000行x3列的训练集，B1、B2、B3合成2500行x3列测试集，再让下层学习器基于这些数据进行再训练。
在这里插入图片描述

二、代码实战

第一个例子：

# 1. 简单堆叠3折CV分类
from sklearn import datasets

iris = datasets.load_iris()
X, y = iris.data[:, 1:3], iris.target
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import StackingCVClassifier

RANDOM_SEED = 42

clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=RANDOM_SEED)
clf3 = GaussianNB()
lr = LogisticRegression()

# Starting from v0.16.0, StackingCVRegressor supports
# `random_state` to get deterministic result.
sclf = StackingCVClassifier(classifiers=[clf1, clf2, clf3],  # 第一层分类器
                            meta_classifier=lr,   # 第二层分类器
                            random_state=RANDOM_SEED)

print('3-fold cross validation:\n')

for clf, label in zip([clf1, clf2, clf3, sclf], ['KNN', 'Random Forest', 'Naive Bayes','StackingClassifier']):
    scores = cross_val_score(clf, X, y, cv=3, scoring='accuracy')
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

运行结果：

3-fold cross validation:
Accuracy: 0.91 (+/- 0.01) [KNN]
Accuracy: 0.95 (+/- 0.01) [Random Forest]
Accuracy: 0.91 (+/- 0.02) [Naive Bayes]

# 我们画出决策边界
from mlxtend.plotting import plot_decision_regions
import matplotlib.gridspec as gridspec
import itertools

gs = gridspec.GridSpec(2, 2)
fig = plt.figure(figsize=(10,8))
for clf, lab, grd in zip([clf1, clf2, clf3, sclf], 
                         ['KNN', 
                          'Random Forest', 
                          'Naive Bayes',
                          'StackingCVClassifier'],
                          itertools.product([0, 1], repeat=2)):
    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y, clf=clf) 
    plt.title(lab)
plt.show()

在这里插入图片描述

第二个例子：

# 5.ROC曲线 decision_function
### 像其他scikit-learn分类器一样，它StackingCVClassifier具有decision_function可用于绘制ROC曲线的方法。
### 请注意，decision_function期望并要求元分类器实现decision_function。
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import StackingCVClassifier
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.preprocessing import label_binarize
from sklearn.multiclass import OneVsRestClassifier

iris = datasets.load_iris()
X, y = iris.data[:, [0, 1]], iris.target

# Binarize the output
y = label_binarize(y, classes=[0, 1, 2])
n_classes = y.shape[1]

RANDOM_SEED = 42

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=RANDOM_SEED)

clf1 =  LogisticRegression()
clf2 = RandomForestClassifier(random_state=RANDOM_SEED)
clf3 = SVC(random_state=RANDOM_SEED)
lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf2, clf3],
                            meta_classifier=lr)

# Learn to predict each class against the other
classifier = OneVsRestClassifier(sclf)
y_score = classifier.fit(X_train, y_train).decision_function(X_test)

# Compute ROC curve and ROC area for each class
fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(n_classes):
    fpr[i], tpr[i], _ = roc_curve(y_test[:, i], y_score[:, i])
    roc_auc[i] = auc(fpr[i], tpr[i])

# Compute micro-average ROC curve and ROC area
fpr["micro"], tpr["micro"], _ = roc_curve(y_test.ravel(), y_score.ravel())
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])

plt.figure()
lw = 2
plt.plot(fpr[2], tpr[2], color='darkorange',
         lw=lw, label='ROC curve (area = %0.2f)' % roc_auc[2])
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()