【机器学习基础】第三十课：集成学习之结合策略-CSDN博客

本文链接：https://blog.csdn.net/qq_34222839/article/details/147723405

【机器学习基础】系列博客为参考周志华老师的《机器学习》一书，自己所做的读书笔记。

1.结合策略

假定集成包含T个基学习器 ${h_1,h_2,...,h_T \}$ ，其中 $h_i$ 在示例 $\mathbf x$ 上的输出为 $h_i(\mathbf x)$ 。本文介绍几种对 $h_i$ 进行结合的常见策略。

2.平均法

对数值型输出 $h_i(\mathbf x) \in \mathbb{R}$ ，最常见的结合策略是使用平均法（averaging）。

👉简单平均法（simple averaging）

$\frac{1}{T} \sum^T_{i=1} h_i (x)$

👉加权平均法（weighted averaging）

$\sum^T_{i=1} w_i h_i(x)$

其中 $w_i$ 是个体学习器 $h_i$ 的权重，通常要求 $w_i \geqslant 0, \sum^T_{i=1} w_i =1$ 。

非负权重才能确保集成性能优于单一最佳个体学习器，因此在集成学习中一般对学习器的权重施以非负约束。

一般而言，在个体学习器性能相差较大时宜使用加权平均法，而在个体学习器性能相近时宜使用简单平均法。

3.投票法

对于分类任务来说，最常见的结合策略是使用投票法（voting），分为：

绝对多数投票法（majority voting）：即若某标记得票过半数，则预测为该标记；否则拒绝预测。
相对多数投票法（plurality voting）：即预测为得票最多的标记，若同时有多个标记获最高票，则从中随机选取一个。
加权投票法（weighted voting）：与加权平均法类似。

如果分类器输出的是类标记（例如0,1），则称为“硬投票”。如果分类器输出的是类概率，则称为“软投票”。不同类型的分类器输出值不能混用。

4.学习法

当训练数据很多时，一种更为强大的结合策略是使用“学习法”，即通过另一个学习器来进行结合。Stacking是学习法的典型代表。这里我们把个体学习器称为初级学习器，用于结合的学习器称为次级学习器或元学习器（meta-learner）。

Stacking先从初始数据集训练出初级学习器，然后“生成”一个新数据集用于训练次级学习器。在这个新数据集中，初级学习器的输出被当作样例输入特征，而初始样本的标记仍被当作样例标记。Stacking的算法描述如下图所示：

这里我们假定初级学习器使用不同学习算法产生，即初级集成是异质的。

初级学习器也可是同质的。

过程2：使用初级学习算法 $\mathcal{L} _t$ 产生初级学习器 $h_t$ 。
过程4：生成次级训练集。
过程11：在 $\mathcal{D} '$ 上用次级学习算法 $\mathcal{L}$ 产生次级学习器 $h^{'}$ 。

在训练阶段，次级训练集是利用初级学习器产生的，若直接用初级学习器的训练集来产生次级训练集，则过拟合风险会比较大；因此，一般是通过使用交叉验证或留一法这样的方式，用训练初级学习器未使用的样本来产生次级学习器的训练样本。

以k折交叉验证为例，初始训练集D被随机划分为k个大小相似的集合 $D_1,D_2,...,D_k$ 。令 $D_j$ 和 $\ D j \bar{D}_j=D\backslash D_j$ 分别表示第j折的测试集和训练集。给定T个初级学习算法，初级学习器 $h_t^{(j)}$ 通过在 $\bar{D}_j$ 上使用第t个学习算法而得。对 $D_j$ 中每个样本 $\mathbf{x}_i$ ，令 $z_{it}=h_t^{(j)} (\mathbf{x}_i)$ ，则由 $\mathbf{x}_i$ 所产生的次级训练样例的示例部分为 $\mathbf{z}_i=(z_{i1};z_{i2};...;z_{iT})$ ，标记部分为 $y_i$ 。于是，在整个交叉验证过程结束后，从这T个初级学习器产生的次级训练集是 $D'=\{(\mathbf{z}_i,y_i) \}^m_{i=1}$ ，然后 $D^{'}$ 将用于训练次级学习器。