集成学习方法

最新推荐文章于 2024-03-13 22:09:21 发布

Andy_Shan

最新推荐文章于 2024-03-13 22:09:21 发布

阅读量3k

点赞数 1

分类专栏：机器学习文章标签：算法机器学习集成学习

本文链接：https://blog.csdn.net/andy_shan/article/details/70049670

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 个体与集成

集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统（multi-classifier system）。
集成学习的一般结构如下图所示：

这里写图片描述
先产生一组“个体学习器”，再用某种策略将他们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生，如：决策树，BP神经网络等。
集成分为“同质”和“异质”。包含同类型个体学习器的集成方法是“同质”，否则为“异质”。
集成学习的结果通过投票法产生，所以要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定的准确性，并且有多样性。
根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类，即个体间存在强依赖关系，必须串行生成的序列化方法，以及不存在强依赖关系可同时生成的并行化方法。前者的代表是Boosting，后者是Bagging和随机森林（Random Forest）

2. Boosting

Boosting是一族可将弱学习器提升为强学习器的算法。其工作机制类似：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值 $T$ ,最终将这 $T$ 个基学习器进行加权结合。

2.1 Adaboost及其推导

Boosting族算法最著名的是AdaBoost算法，它有多种推导方式，比较容易理解的是基于“加性模型”，即基学习器的线性组合

H (x) = \sum t = 1 T α t h t (x)

$H(x)=\sum_{t=1}^T\alpha_{t}h_{t}(x)$
来最小化指数损失函数.通过对指数损失函数中的

H(x) $H(x)$ 求偏导再令其等于0可得指数损失函数的最小化：

H (x) = 1 2 l n P ( f ( x ) = 1 | x ) P ( f ( x ) = - 1 | x )

$H(x)=\frac{1}{2}ln\frac{P(f(x)=1|x)}{P(f(x)=-1|x)}$
因此,有:

s i g n (H (x)) = s i g n (1 2 l n P ( f ( x ) = 1 | x ) P ( f ( x ) = - 1 | x )) = a r g m a x P (f (x) = y | x),

$sign(H(x))=sign(\frac{1}{2}ln\frac{P(f(x)=1|x)}{P(f(x)=-1|x)})=argmaxP(f(x)=y|x),$

y \in - 1, 1

$y\in{-1,1}$
这意味着

sign(H(x)) $sign(H(x))$ 达到了贝叶斯最优错误率，换言之，若指数损失函数最小化，则分类错误率也将最小化。由于指数损失函数连续可微，因此我们用它替代0/1损失函数作为优化目标。
在Adaboost算法中，第一个基分类器

h1 $h1$ 是通过直接将基学习算法用于初始数据分布得到；此后迭代的生成

ht $h_{t}$ 和

at $a_{t}$ ，当基分类器

ht $h_{t}$ 基于分布

Dt $D_{t}$ 产生后，该基分类器的权重

at $a_{t}$ 应使得

atht $a_{t}h_{t}$ 最小化指数损失函数，由此得出了分类器权重更新公式

α t = 1 2 l n (1 - ϵ t ϵ t)

$\alpha_{t}=\frac{1}{2}ln(\frac{1-\epsilon_{t}}{\epsilon_{t}})$
理想的

ht $h_{t}$ 将在分布

Dt $D_{t}$ 下最小化分类误差。因此弱分类器基于分布

Dt $D_{t}$ 来训练，且针对

Dt $D_{t}$ 的分类误差应小于0.5.类似残差逼近的思想。每次要对

Dt+1 $D_{t+1}$ 更新。

从偏差-方差分解的角度看，Boosting主要关注降低偏差，因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成。

3.Bagging与随机森林

集成中的基学习器应尽可能相互独立，虽然“独立”在现实任务中无法做到，但可以设法使基学习器尽可能具有较大的差异，一种方法是进行采样，但是如果采样出的每个子集都不同，显然无法训练出较好的基学习器，为解决这个问题，我们可考虑使用相互有交叠的采样子集。

3.1 Bagging

Bagging是并行式集成学习方法最著名的代表。它基于自助采样法，即有放回的随机采样训练数据。
照这样，我们可采样出 $T$ 个含 $m$ 个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合。
在预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法。
从偏差-方差分解的角度看，Bagging主要关注降低方差。

3.2 随机森林

RF在以决策树为基学习器构建Bagging继承的基础上，进一步在决策树的训练过程中引入了随机属性选择。在RF中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含 k <script type="math/tex" id="MathJax-Element-24">k</script>个属性的子集，然后再从这个子集中选择一个最优属性用于划分。
随机森林对Bagging只做了小改动，但是与Bagging中基学习器的” 多样性”仅通过样本扰动而来不同，随机森林中基学习器的“多样性”还来自属性扰动，这就使得最终集成的泛化性能可能通过个体学习器之间的差异度的增加而进一步提升。

4.结合策略

学习器结合可能从3个方面带来好处：

可能有多个假设在训练集上达到同等效率，此时若使用单学习器可能因误选而导致泛化性能不佳，结合多个学习器会减小这一风险。
学习算法往往会陷入局部极小，结合可以降低这样的风险
某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中，此时若使用单学习器则肯定无效，而通过结合多个学习器，由于相应的假设空间有所扩大，有可能学得更好的近似。