集成学习-Task5 Stacking

最新推荐文章于 2024-03-31 08:46:13 发布

Zee_Chao

最新推荐文章于 2024-03-31 08:46:13 发布

阅读量417

点赞数

分类专栏： Datawhale Team Learning 文章标签：集成学习

本文链接：https://blog.csdn.net/Zee_Chao/article/details/120027895

版权

Datawhale Team Learning 专栏收录该内容

27 篇文章 1 订阅

订阅专栏

Stacking和Blending是两种集成学习策略，用于提高模型预测性能。Blending简单易行，但存在数据使用不足的问题。Stacking通过引入交叉验证解决了这一问题，提升了模型的泛化能力。在实际应用中，Blending通常需要手动实现，而Stacking则需要借助如mlxtend这样的第三方库。两者都是通过组合多个基础模型的预测结果来创建更强的最终模型。

摘要由CSDN通过智能技术生成

1. Stacking概述

严格来说Stacking不是一种集成学习算法，它更像是一种集成策略。简单来说，Stacking是一种两层集成策略。它的第一层含有多个基础分类器，把预测的结果提供给第二层。第二层的分类器通常是逻辑回归，它会将第一层分类器的结果当做特征输出预测结果。

2. Blending——简化版的Stacking

Blending也遵从Stacking的策略，但是比较简单，可以用来帮助深入理解Stacking。它的算法流程如下：

（1）将数据集划分为训练集、验证集和测试集；

（2）在第一层创建多个基模型，同质异质都可以；

（3）用训练集训练基模型；

（4）用训练好的模型对验证集和测试集做预测，得到各自的预测结果；

（5）将不同模型在验证集上的预测结果拼接，形成新的训练数据，训练第二层的模型；

（6）用测试集的预测结果作测试集，对第二层训练好的模型做预测。

Blending的优点就是实现简单粗暴。但是缺点也很明显，就是在两层中都只能用上全体数据的一部分。

3. Stacking的流程

为了克服Blending在两层中都只使用了部分数据的缺点，人们发明了Stacking。从Blending到Stacking的逻辑过程其实很简单。我们再回看Blending的流程，其中它会将数据集切分成训练集、验证集和测试集。我们在训练一般的机器学习模型的时候也会这么做。不过，这同样面临数据使用不充分的问题。因此人们发明了交叉验证法。也就是说在训练阶段，将训练集进行等分，每一份等分的数据都充当一次验证集。而Stacking相对与Blending的改进实际上也类似于从一般的验证集选取到交叉验证集的过渡。

一个简单的Stacking算法流程如下图[1]所示。

jupyter