（《机器学习》完整版系列）第8章集成学习——8.7 基学习器多样性（“好而不同”）

人工干智能

已于 2023-03-31 10:39:41 修改

阅读量238

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：集成学习机器学习算法

于 2023-02-28 19:37:05 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129268155

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 34 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

多样性有提高泛化的好处，增强多样性就是“扰动”方法：
（1）数据扰动
（2）输入属性扰动
（3）输出表示扰动
（4）算法参数扰动

多样性

误差-分歧分解从理论上讨论了个体学习器“好而不同”对集成学习泛化能力的影响。

推导【西瓜书式(8.31)】的关键是对【西瓜书式(8.28)】进行如下分解：
$\begin{align} (h_i(\boldsymbol{x})-H(\boldsymbol{x}))^2=[(h_i(\boldsymbol{x})-f(\boldsymbol{x}))+(f(\boldsymbol{x})-H(\boldsymbol{x}))]^2 \tag{8.44} \end{align}$

上式左边表达了：对 $\boldsymbol{x}$ 预测时，个体 $h_i$ 与集体决策 $H$ 的分歧，而右边两项分别表示个体 $h_i$ 预测的误差和集体决策 $H$ 的误差（其中， $f(\boldsymbol{x})$ 为真值）。

【西瓜书式(8.31)】的推导过程类比于【西瓜书第2.5节】偏差与方差讨论中【西瓜书式(2.41)】的推导过程。

【西瓜书式(8.28)】的第一式=【西瓜书式(8.31)】的第一式，两边乘以概率密度 $p(\boldsymbol{x})$ ，再取定积分，即得到【西瓜书式(8.32)】。

既然多样性有提高泛化的好处，那么，如何增强多样性呢？那就是“扰动”方法：

（1）数据扰动

自助采样：如Bagging中使用的“样本放回的采样”【西瓜书p.178】。
序列采样：如AdaBoost中对分布序列 $\mathcal{D}_t$ 进行采样【西瓜书p.177】。

（2）输入属性扰动

即选取不同的属性子集进行训练，随机子空间算法【西瓜书图8.11】即是这种方法。

（3）输出表示扰动

在属性的局限下，样本空间中可能有相互矛盾的标记，例如，西瓜的属性相同，可能一只是好瓜，另一只是坏瓜，当我们的采样只采到其中的一只时，我们的训练集 $D$ 中没有包含另一只的情况，训练出的学习器未考虑另一只的情况。这时，通过“翻转”这只瓜的标记其余瓜的标记不变，训练出的另一个学习器则包含了另一只的情况，而这两学习器是不同的。

另外，样例的标记是“观察”的，而样本的呈现方式以及观察者自身均有可能误导结果（视为观察误差），如，西瓜一边已坏，而观察者刚好尝的是另一边，得出是好瓜的结论。 “翻转法”可以在一定的程度上纠正这种情况。

但上述情况，并不知道哪一个要翻转，这事交给“上帝”，即我们只管随机地选择一些样本进行翻转。

翻转法是一种破坏性的办法，它带来的好处是可以产生包含未观察到的情况的学习器，坏处也比较明显，乱翻转很可能产生瞎胡闹的学习器，好在我们还有测试集，可以剔除掉那些准确率低于50%的学习器，另外，由于还有集成，故并不要求这些初级学习器中每个都“足够好”。

（4）算法参数扰动