机器学习笔记之集成学习(六)Stacking

最新推荐文章于 2024-07-24 14:05:30 发布

静静的喝酒

最新推荐文章于 2024-07-24 14:05:30 发布

阅读量348

点赞数 1

分类专栏：算法八股查漏补缺机器学习文章标签：机器学习集成学习人工智能 Stacking

本文链接：https://blog.csdn.net/qq_34758157/article/details/129686412

版权

机器学习同时被 2 个专栏收录

195 篇文章 231 订阅

订阅专栏

算法八股查漏补缺

24 篇文章 4 订阅

订阅专栏

机器学习笔记之集成学习——Stacking

引言

引言

上一节介绍了基于 $\text{Gradient Boosting}$ 架构的经典模型——梯度提升树( $\text{Gradient Boosting Decision Tree,GBDT}$ )。本节将介绍另一种集成学习思想—— $\text{Stacking}$ 。

回顾： $\text{Bagging}$ 架构

给定数据集合 $\mathcal D = \{(x^{(i)},y^{(i)})\}_{i=1}^N$ ，基于 $\text{Bagging}$ 架构的算法执行过程可表示为如下形式：

使用自助采样法( $\text{Boostrapping Sampling}$ )对原始数据集合 $\mathcal D$ 进行操作，每次 $\text{Boostrapping}$ 均会产生一个新的训练集 $\mathcal D_k \in \mathcal D$ ，重复执行 $\mathcal K$ 次，最终得到 $\mathcal K$ 个训练集：
$\mathcal D_1,\mathcal D_2,\cdots,\mathcal D_{\mathcal K}$
针对每个训练集 $\mathcal D_k(k=1,2,\cdots,\mathcal K)$ 均安排一个模型 $h_k(x)$ 对其进行独立训练。我们称这些模型为基学习器( $\text{Base Learner}$ )。相应地，最终会得到 $\mathcal K$ 个基学习器：
$h_1(x),h_2(x),\cdots,h_{\mathcal K}(x)$
此时，得到训练好的模型 $h_k(x)(k=1,2,\cdots,\mathcal K)$ 后，针对不同的任务类型，对 $\text{Bagging}$ 输出结果进行描述：
- 回归任务( $\text{Regression Task}$ )： $\mathcal K$ 个基学习器预测结果取均值；
- 分类任务( $\text{Classification Task}$ )：对 $\mathcal K$ 个基学习器预测结果进行投票( $\text{Voting}$ )，选择投票多的结果作为最终归属分类。

$\text{Stacking}$ 架构描述

同样给定数据集合 $\mathcal D = \{(x^{(i)},y^{(i)})\}_{i=1}^N$ ，基于 $\text{Boosting}$ 架构的算法执行过程可表示为如下形式：

选择 $\mathcal K$ 种不同类别模型作为基学习器，并使用数据集 $\mathcal D$ 对每一个基学习器进行独立训练。最终得到 $\mathcal K$ 个训练好的基学习器：
$h_1(x),h_2(x),\cdots,h_{\mathcal K}(x)$
假设关于某样本特征 $x^{(i)}$ ，关于某具体任务的预测结果 $y_{pred}^{(i)}$ 可以视作：将各基学习器的预测结果 $h_1(x^{(i)}),h_2(x^{(i)}),\cdots,h_{\mathcal K}(x^{(i)})$ 拼接 $(\text{Concatenate})$ 起来，作为新的数据集 $\mathcal D'$ ：
$\begin{cases} \mathcal D' = \{(z^{(i)},y^{(i)})\}_{i=1}^N \\ z^{(i)} = \text{Concatenate}\left[h_1(x^{(i)}),h_2(x^{(i)}),\cdots,h_{\mathcal K}(x^{(i)})\right] \quad i=1,2,\cdots,N \end{cases}$
此时再次对 $\mathcal D'$ 重新建模，最终得到关于样本特征 $x^{(i)}$ 预测结果 $y_{pred}^{(i)}$ ：
通常使用全连接层对 $z^{(i)}$ 进行学习。
$\begin{aligned} y_{pred}^{(i)} & = \text{DenseLayer}(z^{(i)}) \\ \end{aligned}$

$\text{Stacking VS Bagging}$

通过对 $\text{Stacking}$ 架构的描述，可以发现 $\text{Stacking}$ 架构和 $\text{Bagging}$ 之间存在相似之处，它们本质上均是融合若干个基学习器的预测结果，以降低方差。

但关于 $\text{Stacking}$ 的核心区别在于：
再回首：
$\text{Bagging}$ 是在不同数据集合上训练同一类别模型;
$\text{Stacking}$ 是在相同数据集合上训练不同类别模型。
其核心思想是：针对不同模型对于相同数据预测结果的差异性，在各预测结果 $\text{Conbine}$ 过程中，起到降低方差的作用 -> 差异性因模型类别的差异而产生的。
相比之下， $\text{Bagging}$ 关于各预测结果的差异性很‘刻意’。依然以随机森林为例，为了保持各基学习器的差异性，我们设置参数故意让决策树有一定概率选择不到最优解，使其强行学习‘模糊/不够准确’。

$\text{Stacking}$ 架构的基学习器可以存在不同的模型类别；而 $\text{Bagging}$ 架构的基学习器均是同一类型的。例如随机森林( $\text{Random Forest,RF}$ )。它的基学习器均是决策树( $\text{Decision Tree}$ )。

相比之下， $\text{Stacking}$ 可以使用不同的基学习器进行处理。例如随机森林、 $\text{GBDT}$ 、多层感知机( $\text{Multilayer Perceptron,MLP}$ )等等。
相比于 $\text{Bagging}$ 架构对于数据集合的自助采样法，我们甚至不需要对数据集进行 $\text{Boostrap}$ ，直接用原始数据集 $\mathcal D$ 即可。因为各基学习器可能已经执行过采样操作了：
从泛化的角度观察， $\text{Boostrap}$ 采样本身就是增加基学习器对于特征学习的多样性。而 $\text{Stacking}$ 已经将该多样性转移至不同类别的模型中。并且，该多样性不仅仅体现在模型结构，而且也可能体现在各模型对于特征的选择上。
$\text{Bagging}$ 架构针对不同任务通常使用均值、投票的方式获取结果，原因在于基学习器模型类别相同，对于数据预测的标尺( $\text{Scale}$ )是相似的。

而 $\text{Stacking}$ 不同类型的基学习器对于预测结果可能存在不同的标尺，那么关于各基学习器的预测结果的 $\text{Conbine}$ 问题， $\text{Stacking}$ 将每个基学习器的预测结果拼接起来，使用全连接神经网络进行重新学习，最终得到预测结果。
- 这里关注的点在于，各预测结果 $\text{Concatenate}$ 的向量是可以通过神经网络学习的。当然也可以使用投票、均值的方法(均值就意味着各学习器权重相同)，不绝对。
- 从预测结果的角度观察，虽然各预测结果可能存在不同标尺，但是它们的预测方向是相似的。即：某个样本特征的预测标签结果大概率不会出现完全相反的情况。因而不一定需要非常复杂的模型去学习融合特征。

静静的喝酒

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习笔记之集成学习(六)Stacking

上一节介绍了基于Gradient Boosting架构的经典模型——梯度提升树(Gradient Boosting Decision Tree,GBDT)。本节将介绍另一种集成学习思想——Stacking。
复制链接

扫一扫