【机器学习】集成学习之stacking

最新推荐文章于 2025-03-21 15:10:27 发布

zhaosarsa

最新推荐文章于 2025-03-21 15:10:27 发布

阅读量1.2w

点赞数 7

分类专栏：机器学习

机器学习专栏收录该内容

48 篇文章

订阅专栏

本文详细介绍了集成学习中的Stacking方法，包括其基本概念、训练流程及为何高效的原因。通过具体的模型示例，如XGBoost和随机森林，展示了如何通过多层模型训练提升预测准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

stacking方法也是集成学习的一个作弊一样的方法。

比bagging，boosting内容要少一点。

简介

Stacking(有时候也称之为stacked generalization)是指训练一个模型用于组合(combine)其他各个模型。即首先我们先训练多个不同的模型，然后再以之前训练的各个模型的输出为输入来训练一个模型，以得到一个最终的输出。如果可以选用任意一个组合算法，那么理论上，Stacking可以表示上面提到的各种Ensemble方法。然而，实际中，我们通常使用单层logistic回归作为组合模型。

虽然他很直观，但是没有语言描述确实很难搞懂。

上半部分是用一个基础模型进行5折交叉验证，如：用XGBoost作为基础模型Model1，5折交叉验证就是先拿出四折作为training data，另外一折作为testing data。注意：在stacking中此部分数据会用到整个traing set。如：假设我们整个training set包含10000行数据，testing set包含2500行数据，那么每一次交叉验证其实就是对training set进行划分，在每一次的交叉验证中training data将会是8000行，testing data是2000行。

每一次的交叉验证包含两个过程，1. 基于training data训练模型；2. 基于training data训练生成的模型对testing data进行预测。在整个第一次的交叉验证完成之后我们将会得到关于当前testing data的预测值，这将会是一个一维2000行的数据，记为a1。注意！在这部分操作完成后，我们还要对数据集原来的整个testing set进行预测，这个过程会生成2500个预测值，这部分预测值将会作为下一层模型testing data的一部分，记为b1。因为我们进行的是5折交叉验证，所以以上提及的过程将会进行五次，最终会生成针对testing set数据预测的5列2000行的数据a1,a2,a3,a4,a5，对testing set的预测会是5列2500行数据b1,b2,b3,b4,b5。

在完成对Model1的整个步骤之后，我们可以发现a1,a2,a3,a4,a5其实就是对原来整个training set的预测值，将他们拼凑起来，会形成一个10000行一列的矩阵，记为A1。而对于b1,b2,b3,b4,b5这部分数据，我们将各部分相加取平均值，得到一个2500行一列的矩阵，记为B1。

以上就是stacking中一个模型的完整流程，stacking中同一层通常包含多个模型，假设还有Model2: LR，Model3：RF，Model4: GBDT，Model5：SVM，对于这四个模型，我们可以重复以上的步骤，在整个流程结束之后，我们可以得到新的A2,A3,A4,A5,B2,B3,B4,B5矩阵。

在此之后，我们把A1,A2,A3,A4,A5并列合并得到一个10000行五列的矩阵作为training data，B1,B2,B3,B4,B5并列合并得到一个2500行五列的矩阵作为testing data。让下一层的模型，基于他们进一步训练。

以上即为stacking的完整步骤！

XGB模型，把train分train1~train5,共5份，用其中4份预测剩下的那份,同时预测test数据，这样的过程做5次,生成5份train（原train样本数/5）数据和5份test数据。然后把5份预测的train数据纵向叠起来，把test预测的结果做平均。

RF模型和XGB模型一样，再来一次。这样就生成了2份train数据和2份test数据（XGB重新表达的数据和RF重新表达的数据），然后用LR模型，进一步做融合，得到最终的预测结果。

左边部分为训练集，右边部分为测试集

依旧是以原来的label作为训练的target

为什么stacking高效呢？

可以这么理解，原本的多个模型训练的精度已经到达了一个程度，上不去了。众所周知，模型的精度在起初的时候上升总是较快，但是越到后面上升就越慢。举一个例子吧。有场马拉松，有10公里，一个人跑了7公里，实在跑不动了。这个时候裁判突然说，可以接力跑，他叫了个兄弟来帮他跑，剩下但3公里跑起来就轻松多了。就是这个道理，几个模型的精度达到了上限，从原始数据到target已经很困难了，无法在提高了，那我们就不训练原始数据了，从上一个模型的输出的直接去拟合target。就是这么作弊的一个东西。

个人感觉这东西容易过拟合，也有人试过多层的stacking效果不如层数少的，很大的可能性就是过拟合了。

参考：https://blog.csdn.net/willduan1/article/details/73618677/

https://blog.csdn.net/wstcjf/article/details/77989963

https://blog.csdn.net/qq_18916311/article/details/78557722