机器学习笔记(集成学习)

最新推荐文章于 2023-02-26 00:37:03 发布

NCGMaker

最新推荐文章于 2023-02-26 00:37:03 发布

阅读量176

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/NCGMaker/article/details/106153719

版权

文章目录

1. 集成学习的一般概念
2. Boosting
3. Bagging

1. 集成学习的一般概念

集成学习是通过多个模型的组合来获得一个精度更高的模型来完成学习任务。参与组合的模型被称为个体学习器。集成学习的一般结构如下图所示：

即，先产生一组个体学习器，而后再用某种策略将它们结合起来。

由于将若干个体学习器集成起来，通常可以获得比单个学习器更好的泛化性能。而对弱学习器尤为显著。其中，弱学习器是指泛化性能略优于随机猜测的学习器。

为了获得泛化性能好的集成，每个个体学习器应该满足：

准确性：每个个体学习器要有一定的准确性。
多样性：学习器之间要有一定的差异，因为无差别的个体学习器集成后泛化性能几乎不会有提升。

学习器结合带来的好处：

学习任务的假设空间一般很大，可能有多个假设在训练集上达到同等性能，此时若使用单一学习器有可能会因误选而导致泛化性能不佳。结合多个学习器可以减小这一风险。
通过结合可以降低陷入泛化性能糟糕的局部极小点的风险。
扩大假设空间，有可能学得更好的近似。

1.1 结合策略

平均法

对回归任务而言, 我们通常用平均法：

简单平均法： $H(\bm{x}) = \frac{1}{T} \sum_{i=1}^{T} h_{i}(\bm{x}).$
加权平均法： $H(\bm{x}) = \sum_{i=1}^{T} \omega_{i} h_{i}(\bm{x}).$ 其中， $\omega_{i}$ 是个体学习器 $h_{i}$ 的权重，且 $\omega_{i} \ge 0,$ $\sum_{i=1}^{T}\omega_{i} = 1.$

投票法

对分类任务而言，个体学习器 $h_{i}$ 将从类别标记集合 $\{c_{1}, c_{2}, \ldots, c_{N}\}$ 中预测出一个标记。最常见的结合策略是投票法：令 $h_{i}^{j}(\bm{x})$ 是 $h_{i}$ 在类别标记 $c_{j}$ 上的输出。

绝对多数投票法： $H(\bm{x}) = \begin{cases} c_{j}, & \sum_{i=1}^{T}h_{i}^{j}(\bm{x}) > \frac{1}{2} \sum_{k=1}^{N}\sum_{i=1}^{T} h_{i}^{k}(\bm{x}) \\ \text{reject}, & \text{otherwise}. \end{cases}$
相对多数投票法: $H(\bm{x}) = c_{\mathop{\arg \max}\limits_{j} \sum_{i=1}^{T} h_{i}^{j}(\bm{x})} .$
加权投票法： $H(\bm{x}) = c_{\mathop{\arg \max}\limits_{j} \sum_{i=1}^{T} \omega_{i}h_{i}^{j}(\bm{x})} .$ 其中， $\omega_{i}$ 是个体学习器 $h_{i}$ 的权重，且 $\omega_{i} \ge 0,$ $\sum_{i=1}^{T}\omega_{i} = 1.$

1.2 多样性的提高方法

数据样本扰动
输入属性扰动
输出表示扰动
算法参数扰动

目前，集成学习主要分为两大类：

Boosting: 个体学习器间存在强依赖关系，必须串行生成的序列化方法。
Bagging: 个体学习器间不存在强依赖关系，可同时生成的并行化方法。

2. Boosting

Boosting 算法的机制是：先从初始训练集训练得到一个个体学习器，再根据此个体学习器的表现来对训练样本的分布进行调整，重点关注被错分的样本，之后基于调整后的样本分布来训练下一个学习器，重复上述过程，直到达到个体学习器的数目 $T$ .

Boosting算法的一个实现是 AdaBoost(Adaptive Boosting)算法。基于加性模型，AdaBoost的强分类器的表达式为
$H(\bm{x}) = \sum_{i=1}^{T} \alpha_{i} f_{i}(\bm{x})$
其中， $f_{i}(\bm{x})$ 是弱分类器， $\alpha_{i}$ 是弱分类器的权重， $T$ 为弱分类器的数目。对于二分类问题，分类判定规则为
$\text{sgn} (H(\bm{x})).$

下面我们给出AdaBoost训练算法：
假设训练样本集为:
$\{ (x_{1}, y_{1}), (x_{2}, y_{2}), \ldots, (x_{l}, y_{l})\},$ 第 $t$ 轮迭代时数据集的样本权重记为 $\omega_{i}^{t}，( i=1, 2, \ldots, l).$
首先，初始化样本权重:
$\omega_{i}^{0} = \frac{1}{l}, \quad i = 1, 2, \ldots, l.$
开始循环，对 $\ldots, T$ 依次训练每个弱分类器：
训练一个弱分类器 $f_{t}(\bm{x})$ , 并计算其错误率 $e_{t} = P(f_{t}(x_{i}) \neq y_{i}).$
计算弱分类器的权重: $\alpha_{t} = \frac{1}{2} \ln \left[\frac{1-e_{t}}{e_{t}} \right].$
更新所有样本的权重: $\omega_{i}^{t} = \frac{1}{Z_{t}}\omega_{i}^{t-1} \exp \left[ -y_{i} \alpha_{t} f_{t}(\bm{x}_{i})\right],$
其中 $Z_{t}$ 为归一化因子， $Z_{t} = \sum_{i=1}^{l} \omega_{i}^{t-1} \exp \left[ -y_{i} \alpha_{t} f_{t}(\bm{x}_{i})\right].$
结束循环
最后得到强分类器:
$\text{sgn}[H(\bm{x})] = \text{sgn} \left[ \sum_{t=1}^{T} \alpha_{t} f_{t}(\bm{x})\right].$

3. Bagging

Bootstrap 抽样

Bootstrap抽样是一种有放回数据抽样方法，它从 $l$ 个样本的集合中有放回地抽取 $l$ 个样本形成一个数据集。

Bagging 算法
在Bootstrap抽样的基础上便可以构造Bagging(Bootstrap Aggregating)算法:

开始循环，对 $\ldots, T$
对训练样本进行Bootstrap抽样，得到抽样后的训练样本集。
用抽样得到的训练集训练一个模型 $h_{i}(\bm{x}).$
结束循环
输出模型组合 $h_{1}(\bm{x}), \ldots, h_{T}(\bm{x}),$
其中 $T$ 为弱学习器的数目。