周志华《机器学习》同步学习笔记 ——第八章集成学习

最新推荐文章于 2022-08-29 23:07:42 发布

克小洛

最新推荐文章于 2022-08-29 23:07:42 发布

阅读量909

点赞数

分类专栏：机器学习人工智能学习笔记文章标签：机器学习人工智能学习笔记集成学习

本文链接：https://blog.csdn.net/u014157256/article/details/98226779

版权

学习笔记同时被 3 个专栏收录

10 篇文章 1 订阅

订阅专栏

人工智能

7 篇文章 0 订阅

订阅专栏

机器学习

6 篇文章 0 订阅

订阅专栏

周志华《机器学习》同步学习笔记 ——第八章集成学习

8.1 个体与集成
8.2 Boosting
8.3 Bagging与随机森林
- Bagging
- 随机森林（Random Forest）
8.4 结合策略
8.5 多样性

8.1 个体与集成

集体学习（多分类器系统/基于委员会的学习）：生成一组个体学习器并将它们结合起来。
“同质”集成：只包含同种类型的个体学习器（例如BP、决策树），对应基学习器、基学习算法。
“同质”集成：包含不同类型的个体学习器，对应组件学习器。
集成学习可得到比单一学习器更好的泛化性能，尤其是弱学习器：泛化性能略大于50％
在分类器的错误率相互独立的前提下集成的错误率：（Hoeffding不等式）在这里插入图片描述
随着个体分类器数目T增大，集成错误率下降。
集成学习研究的核心：产生并结合“好而不同”的个体学习器
分成两大类：

个体学习器之间存在强依赖关系，必须串行生成如 Boosting
个体学习器不存在强依赖关系，可以并行生成如 Bagging、随机森林

8.2 Boosting

工作机制：在这里插入图片描述
代表算法：AdaBoost

详细总结：https://www.cnblogs.com/pinard/p/6133937.html?utm_source=tuicool&utm_medium=referral

8.3 Bagging与随机森林

为了更好的泛化性能，个体学习器应尽可能独立且不能太差。因此可以考虑使用相互有交叠的采样子集。

Bagging

工作机制：先用自助采样法（对给定包含m个样本的数据集，每次选取一个样本并放回，重复m次）采样出T个含m个训练样本的采样集，对每个样本集训练处一个基学习器，再将这些学习器结合。
分类任务用简单投票法，回归任务用简单平均法。
在这里插入图片描述
优点：复杂度低，仅比只用基学习算法多了一个采样和投票环节，能直接用于分类、回归，自主采样剩余样本可用于对泛化性能的外包估计↓

在这里插入图片描述
从偏差-方差分解的角度看，Bagging主要关注降低方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更明显。

随机森林（Random Forest）

随机森林是Bagging的一个扩展变体，是以决策树为及学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入随机属性选择。具体来说，传统决策树在选择划分属性时是在当前结点的属性集合(假定有 $d$ 个属性)中选择一个最优属性;而在RF 中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分. 这里的参数k 控制了随机性的引入程度;若令 $k = d$ , 则基决策树的构建与传统决策树相同;若令 $k = 1$ ，则是随机选择一个属性用于划分; 一般情况下，推荐值 $k=log_2{d}$

虽然简单、容易实现、计算开销小，但是因为其中基学习器不仅受到样本扰动，也受到属性扰动，使得其泛化性能进一步提升。

8.4 结合策略

可能从三个方面带来好处：
1. 减小因使用单学习器而误选而导致的泛化性能不佳的风险
2. 降低陷入糟糕局部极小点的风险
3.使得相应架设空间扩大，可能削的更好的近视。

8.4.1 平均法

对数值型输出最常见的结合策略

简单平均法

$H\left (\boldsymbol{x}\right ) = \frac{1}{T}\sum_{i=1}^{T} h_{i}\left (\boldsymbol{x} \right )$

加权平均法

$H\left (\boldsymbol{x}\right ) = \sum_{i=1}^{T}\omega_i h_{i}\left (\boldsymbol{x} \right )$
其中 $\omega_i$ 是个体学习器的权重，一般是从训练数据中习得。在个体学习器性能相差较大时宜使用加权平均法，而在个体学习器性能相近时宜使用简单平均法

8.4.2 投票法

对分类任务最常见的结合策略

绝对多数投票法

某标记得票过半数则预测为该标记
在这里插入图片描述

相对多数投票法

预测为得票最多的标记，若多个标记最高票，从中随机
在这里插入图片描述

加权投票法

在这里插入图片描述

应注意：
在这里插入图片描述

8.4.3 学习法

当训练数据很多，可以通过另一个学习器来进行结合。Stacking是典型代表，即将训练集弱学习器的学习结果作为输入，将训练集的输出作为输出，重新训练一个学习器来得到最终结果。
在这种情况下，我们将弱学习器称为初级学习器，将用于结合的学习器称为次级学习器。对于测试集，我们首先用初级学习器（使用不同学习算法）预测一次，得到次级学习器的输入样本，再用次级学习器预测一次，得到最终的预测结果。
在这里插入图片描述

8.5 多样性

8.5.1 误差-分歧分解

个体学习器应“好而不同”，对于回归学习定义学习器 $h_{i}$ 的分歧为 $A\left ( h_{i}\mid \boldsymbol{x}^{} \right )=\left (h_{i}\left ( \boldsymbol{x} \right )-H\left ( \boldsymbol{x} \right ) \right )^{2}$
集成分歧：
在这里插入图片描述