stacking的详细代码教程

最新推荐文章于 2024-04-09 10:49:30 发布

hejp_123

最新推荐文章于 2024-04-09 10:49:30 发布

阅读量4.5k

点赞数 7

分类专栏：机器学习 sklearn 文章标签： stacking 模型融合

本文链接：https://blog.csdn.net/hejp_123/article/details/102993294

版权

机器学习同时被 2 个专栏收录

13 篇文章 1 订阅

订阅专栏

sklearn

3 篇文章 0 订阅

订阅专栏

1.Stacking是什么？
Stacking简单理解就是讲几个简单的模型，一般采用将它们进行K折交叉验证输出预测结果，然后将每个模型输出的预测结果合并为新的特征，并使用新的模型加以训练。

Stacking模型本质上是一种分层的结构，这里简单起见，只分析二级Stacking.假设我们有3个基模型M1、M2、M3。

基模型M1，对训练集train训练，然后用于预测train和test的标签列，分别是P1，T1

è¿éåå¾çæè¿°

2.Stacking的好处在哪里？

做大数据的比赛的一般是是使用单一模型进行预测，或者是多个模型进行比较，选出最合适的模型，我们所做的交叉验证主要是多个模型的加权平均。我们使用单个模型进行交叉验证，一般是使用K-fold交叉验证，来降低模型的过拟合风险，提高模型的准确度。

from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits
import numpy as np
from sklearn.svm import SVC
from sklearn import metrics
from sklearn.ensemble import RandomForestClassifier
from sklearn import preprocessing
import pandas as pd
 
 
# 导入数据集切割训练与测试数据
 
data = load_digits()
data_D = preprocessing.StandardScaler().fit_transform(data.data)
data_L = data.target
data_train, data_test, label_train, label_test = train_test_split(data_D,data_L,random_state=1,test_size=0.7)
 
def SelectModel(modelname):
 
    if modelname == "SVM":
        from sklearn.svm import SVC
        model = SVC(kernel='rbf', C=16, gamma=0.125,probability=True)
 
    elif modelname == "GBDT":
        from sklearn.ensemble import GradientBoostingClassifier
        model = GradientBoostingClassifier()
 
    elif modelname == "RF":
        from sklearn.ensemble import RandomForestClassifier
        model = RandomForestClassifier()
 
    elif modelname == "XGBOOST":
        import xgboost as xgb
        model = xgb()
 
    elif modelname == "KNN":
        from sklearn.neighbors import KNeighborsClassifier as knn
        model = knn()
    else:
        pass
    return model
 
def get_oof(clf,n_folds,X_train,y_train,X_test):
    ntrain = X_train.shape[0]
    ntest =  X_test.shape[0]
    classnum = len(np.unique(y_train))
    kf = KFold(n_splits=n_folds,random_state=1)
    oof_train = np.zeros((ntrain,classnum))
    oof_test = np.zeros((ntest,classnum))
 
 
    for i,(train_index, test_index) in enumerate(kf.split(X_train)):
        kf_X_train = X_train[train_index] # 数据
        kf_y_train = y_train[train_index] # 标签
 
        kf_X_test = X_train[test_index]  # k-fold的验证集
 
        clf.fit(kf_X_train, kf_y_train)
        oof_train[test_index] = clf.predict_proba(kf_X_test)
 
        oof_test += clf.predict_proba(X_test)
    oof_test = oof_test/float(n_folds)
    return oof_train, oof_test
 
# 单纯使用一个分类器的时候
clf_second = RandomForestClassifier()
clf_second.fit(data_train, label_train)
pred = clf_second.predict(data_test)
accuracy = metrics.accuracy_score(label_test, pred)*100
print accuracy
# 91.0969793323
 
# 使用stacking方法的时候
# 第一级，重构特征当做第二级的训练集
modelist = ['SVM','GBDT','RF','KNN']
newfeature_list = []
newtestdata_list = []
for modelname in modelist:
    clf_first = SelectModel(modelname)
    oof_train_ ,oof_test_= get_oof(clf=clf_first,n_folds=10,X_train=data_train,y_train=label_train,X_test=data_test)
    newfeature_list.append(oof_train_)
    newtestdata_list.append(oof_test_)
 
# 特征组合
newfeature = reduce(lambda x,y:np.concatenate((x,y),axis=1),newfeature_list)    
newtestdata = reduce(lambda x,y:np.concatenate((x,y),axis=1),newtestdata_list)
 
 
# 第二级，使用上一级输出的当做训练集
clf_second1 = RandomForestClassifier()
clf_second1.fit(newfeature, label_train)
pred = clf_second1.predict(newtestdata)
accuracy = metrics.accuracy_score(label_test, pred)*100
print accuracy
# 96.4228934817

这里只是使用了两层的stacking，完成了一个基本的stacking操作，也可以同理构建三层，四层等等
对于第二级的输入来说，特征进行了变化(有一级分类器构成的判决作为新特征)，所以相应的测试集也需要进行同样的转换，毕竟分类器学习的训练集已经不一样了，学习的内容肯定是无法适用于旧的测试集的，要清楚的是，当初我们是对整个Data集合随机分测试集和训练集的！
适用k-fold的方法，实质上使用了cv的思想，所以数据并没有泄露(没有用到测试集，用的是训练集中的hold-set)，所以这个方法也叫做out-of-folds

hejp_123

关注

7
点赞
踩
88

收藏

觉得还不错? 一键收藏
6
评论
stacking的详细代码教程

1.Stacking是什么？Stacking简单理解就是讲几个简单的模型，一般采用将它们进行K折交叉验证输出预测结果，然后将每个模型输出的预测结果合并为新的特征，并使用新的模型加以训练。Stacking模型本质上是一种分层的结构，这里简单起见，只分析二级Stacking.假设我们有3个基模型M1、M2、M3。基模型M1，对训练集train训练，然后用于预测train和test的标签列，分...
复制链接

扫一扫