【机器学习】Stacking与K折交叉验证

最新推荐文章于 2025-09-11 16:52:12 发布

原创最新推荐文章于 2025-09-11 16:52:12 发布 · 7.8k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#Stacking #K折交叉验证

机器学习同时被 2 个专栏收录

29 篇文章

订阅专栏

机器学习进阶之路

26 篇文章

订阅专栏

本文深入探讨了Stacking集成学习方法，介绍了其定义、原理、算法描述及K折交叉验证流程，旨在帮助读者理解如何利用多个初级学习器的输出作为特征，训练次级学习器以提升模型性能。

其他机器学习系列文章见于专题：机器学习进阶之路——学习笔记整理，欢迎大家关注。

1. Stacking定义

Stacking并不是简单地对个体学习器的结果做简单逻辑处理，而是先从初始数据集训练出初级学习器，将初级学习器的输出当成特征，初始样本的标记仍被当作标记，由此生成一个新数据集用于训练学习器。

Stacking结构图

2. Stacking原理

假设我们有两个初级学习器 $M o d e l 1$ ， $M o d e l 2$ 。

（1）对初级学习器 $M o d e l 1$ ，利用训练集 $D$ 进行训练，然后用训练好的 $M o d e l 1$ 预测训练集 $D$ 和测试集 $T$ 的标签列，结果分别为 $P 1$ 、 $T 1$ 。

（2）对初级学习器 $M o d e l 2$ ，重复步骤（1），得到预测标签结果 $P 2$ 、 $T 2$ 。

（3）将两个初级学习器的结果合并，得到次级学习器 $M o d e l 3$ 的训练集 $P 3 = (P 1, P 2)$ 和测试集 $T 3 = (T 1, T 2)$ 。也就是说，有多少个初级学习器，次级学习器的训练集和测试集就有多少列（特征）。

（4）用 $P 3$ 训练次级学习器 $M o d e l 3$ ，并预测 $T 3$ ，得到最终的预测结果。

3. Stacking算法描述

输入：训练集 $D$ ，初级学习算法 ${\mathfrak{L}}_1,{\mathfrak{L}}_2,...,{\mathfrak{L}}_T$ ，次级学习算法 $\mathfrak{L}$ 。

过程：

（1）对 $\ldots ,m}$ ，使用初级学习算法 $\mathfrak{L}_t$ 产生初级学习器 $\mathfrak { L } _ { t } ( D )$ ;

（2）生成次级训练集：

$\prime } = \emptyset$

${{for\quad }i = 1,2, \ldots ,m\quad do}$

${{for\quad }t = 1,2, \ldots ,T\quad do}$

${{z_{it}} = {h_t}\left( {{x_i}} \right)}$

$end\quad for}}$

${{D^\prime } = {D^\prime } \cup \left( {\left( {{z_{i1}},{z_{i2}}, \ldots ,{z_{iT}}} \right),{y_i}} \right)}$

$end\quad for}}$

（3）在 $D^{'}$ 上用次级学习算法 $\mathfrak{L}$ 产生次级学习器 ${\mathfrak{L}}\left( {D'} \right)$ 。

输出： $H\left( x \right) = h'\left( {{h_1}\left( x \right),{h_2}\left( x \right), \ldots ,{h_T}\left( x \right)} \right)$ 。

4. K折交叉验证

但是，上述这种做法直接利用训练集训练得到的模型去预测训练集的标签，过拟合风险比较大。因此，一般通过k折交叉验证来缓解这种做法的过拟合问题。

Stacking的5折交叉验证流程图

以5折交叉验证为例，做法如下：

（1）原始训练集 $D$ 被随机划分5个大小相似的子集 ${D_1},{D_2}, \ldots ,{D_5}$ ，令 $D_j$ 、 $\ D j {\overline D _j} = D\backslash {D_j}$ 分别表示第 $j$ 折的测试集和训练集。

（2）用 $D_1$ 训练 $M o d e l 1$ ，然后在 $D_1$ 上进行预测得到 $P_{11}$ ；用 $D_2$ 训练 $M o d e l 1$ ，然后在 $D_2$ 上进行预测得到 ${P_{12}}$ ，重复5次将预测得到的 $\left( \begin{array} { c } { P _ { 11 } } \\ { \vdots } \\ { P _ { 15 } } \end{array} \right)$ 。 $P 1$ 的训练集样本数等于原始训练集 $D$ 中的样本数。