浅谈AdaBoost算法--附有详细示例解析

最新推荐文章于 2024-07-18 15:11:02 发布

lqf1403

最新推荐文章于 2024-07-18 15:11:02 发布

阅读量1.3w

点赞数 42

分类专栏： machine learning 文章标签： machine-learning 机器学习 AdaBoost算法

本文链接：https://blog.csdn.net/GYQJN/article/details/45501185

版权

本文深入探讨提升方法，重点讲解AdaBoost算法。解释了弱学习算法如何提升为强学习算法，以及AdaBoost如何改变训练数据权重和组合弱分类器。文章包含详细的算法公式和实例解析。

摘要由CSDN通过智能技术生成

本篇文章先介绍了提升放法和AdaBoost算法。已经了解的可以直接跳过。后面给出了AdaBoost算法的两个例子，附有详细计算过程。

1、提升方法（来源于统计学习方法）

  提升方法是一种常用的统计学习方法，应用十分广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。提升算法基于这样一种思路：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。实际上，就是“三个臭皮匠顶个诸葛亮”的道理。
  历史上，Kearns和Valiant首先提出了“强可学习（strongly learnable）”和“弱可学习（weakly learnable）”的概念。指出：在概率近似正确（probably approximately correct，PAC）学习框架中，一个概念（一个分类），如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么就称这个概念是强可学习的；一个概念，如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机猜测略好，那么就称这个概念是弱可学习的。非常有趣的是Schapire后来证明强可学习与弱可学习是等价的，也就是说，在PAC学习的框架下，一个概念是强可学习的充分必要条件是这个概念是弱可学习的。
  这样一来，问题便成为，在学习中，如果已经发现了“弱学习算法”，那么能否将它提升（boost）为“强学习算法”。大家知道，发现弱学习算法通常要比发现强学习算法容易得多。那么如何具体实施提升，便成为开发提升方法时所要解决的问题。关于提升方法的研究很多，有很多算法被提出。最具代表性的是AdaBoost算法（AdaBoost algorithm）。
  对于分类问题而言，给定一个训练样本集，求比较粗糙的分类规则（弱分类器）要比求精确的分类规则（强分类器）容易得多。提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器，然后组合这些分类器，构成一个强分类器。
  这样。对于提升算法来说，有两个问题需要回答：一是在每一轮如何改变训练数据的权值分布；二是如何将弱分类器组合成为一个强分类器。

2、AdaBoost算法

对于上一小节末尾提出的提升方法的两个问题，AdaBoost算法的做法是：1、提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。2、采用加权多数表决的方法。具体的，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差大的弱分类器的权值，使其在表决中起较小的作用。
下面给出AdaBoost算法的公式：

输入：训练数据集 $T=\{（x_{1},y_{1}）,（x_{2},y_{2}）, ...（x_{N},y_{N}）\}$ ,其中 $x_{i}\in X \subseteq R^n ,y_{i}\in Y=\{-1,+1\}$ ;弱学习算法。
输出：最终分类器G(x)。
（1）初始化训练数据的权值分布

$D 1 = (w 11, . . ., w 1 i, . . ., w 1 N), w 1 i = 1 N, i = 1, 2, . . ., N$ $D_{1}=(w_{11},...,w_{1i},...,w_{1N}),w_{1i}=\frac{1}{N},i=1,2,...,N$
   注：第一次训练弱分类器时各个样本的权值是相等的。
（2）对m=1,2，…,M      注：这里是个循环
（a）使用具有权值分布 $D_{m}$ 的训练数据集学习，得到基本分类器 $G m : X \to {- 1, + 1}$ $G_{m}:X{\rightarrow}\{-1,+1\}$
（b）计算 $G_{m}(x)$ 在训练集上的分类误差率 $e m = P (G m (x i) \neq y i) = \sum i = 1 n w m i I (G m (x i) \neq y i)$ $e_{m}=P(G_{m}(x_{i})\neq y_{i}) =\sum_{i=1}^n w_{mi}I(G_{m}(x_{i})\neq y_{i})$
注： $I(G_{m}(x_{i})\neq y_{i})$ ：不等函数I值为1.相等函数值为0。
（c）计算 $G_{m}(x)$ 的系数 $α m = 1 2 l o g 1 - e m e m$ $\alpha_{m}=\frac{1}{2}log \frac{1-e_{m}}{e_{m}}$ 这里的对数是自然对数。注：显然 $\alpha_{m}$ 是 $e_{m}$ 的调单减函数，这里就解释了为什么对于没有正确分类的数据要加大权值。
（d）更新训练数据集的权值分布
$D m + 1 = (w m + 1, 1, . . ., w m + 1, i, . . ., w m + 1, N)$ $D_{m+1}=(w_{m+1,1},...,w_{m+1,i},...,w_{m+1,N})$
$w m + 1, i = w m i Z m e x p (- α m y i G m (x i)) i = 1, 2, . . ., N$ $w_{m+1,i}=\frac{w_{mi}}{Z_{m}}exp(-\alpha_{m}y_{i}G_{m}(x_{i})) \qquad i=1,2,...,N$ 这里， $Z_{m}$ 是规范化因子
$Z m = \sum i = 1 N w m i e x p (- α m y i G m (x i))$ $Z_{m} = \sum_{i=1}^{N}w_{mi}exp(-\alpha_{m}y_{i}G_{m}(x_{i}))$ 它使 $D_{m+1}$ 成为一个概率分布。
注：自已比较 $Z_{m}$ 与 $w_{m+1,i}$ 的表达式，会发现这里的 $Z_{m}$ 就是在对 $w_{m+1,i}$ 进行归一化工作。
（3）构建基本分类器的线性组合 $f (x) = \sum m = 1 M α m G m (x)$ $f(x)=\sum_{m=1}^{M}\alpha_{m}G_{m}(x)$ 得到最终分类器 $G (x) = s i g n (f (x)) = s i g n (\sum m = 1 M α m G m (x))$ $G(x)=sign(f(x))=sign(\sum_{m=1}^{M}\alpha_{m}G_{m}(x))$