翻译|Adaboost Tutorial

最新推荐文章于 2024-07-20 09:51:47 发布

钟宬

最新推荐文章于 2024-07-20 09:51:47 发布

阅读量73

点赞数

文章标签：算法人工智能机器学习

原文链接：https://www.inf.fu-berlin.de/inst/ag-ki/adaboost4.pdf

版权

[Translate]|AdaBoost and the Super Bowl of Classifiers - A Tutorial Introduction to Adaptive Boosting

在这里插入图片描述

Abstract（摘要）

这篇文章文雅地介绍了AdaBoost算法。AdaBoost算法可以用一堆弱分类器生成一个强分类器。这里从最基础的地方开始推导出了这个算法的数学式。

1. Motivation（动机）

假设你要处理一个二分问题。你手边有一大堆分类器（我们称之为专家）。然而你想要一个更好的分类器，“超级分类器”。因此，你想把这些专家“梦之队”放到一起——比如说从分类器群中挑出11个分类器，并将它们进行组合。对于一个给定的模式 $x_i$ ，每个专家分类器 $k_j$ 可以给出他们的意见 $k_j(x_i)\in \{-1,1\}$ ，专家组 $K$ 的最终决定为 $sign(C(x_i))$ ，即专家组意见的加权求和，其中：
$C(x_i)=\alpha_1k1(x_i)+\alpha_2k2(x_i)+\dots + \alpha_{11}k_{11}(x_i)$

$k_1,k_2,\dots ,k_{11}$ 表示从分类器群中挑出的11个专家。常数 $\alpha_1, \alpha_2,\dots,\alpha_{11}$ 表示专家组中每个专家意见的权重。每个专家 $k_j$ 就只会回答“是（+1）”或者“不是（-1）”。

AdaBoost（adaptive boosting）算法是由Yoav Freund和Robert Shapire在1995年提出的用一系列弱分类器生成一个强分类器的方法。Adaboost对连续分类器都是可用的（比如神经网络，线性判别等）。然而，为了简单，咱们假设我们假设专家组是有限的，包含了 $L$ 个分类器。它们作为AdaBoost的输入。

2. Scouting（侦查）

如果我们想要进行分类器的竞争，我们需要做的有：

侦查预期的团队成员；
从中抽取；
给团队中的成员赋予不同的贡献。

侦查的方法是用包含 $N$ 个数据点的 $x_i$ 训练集 $T$ 在分类器群中测试每个分类器。对于每个点 $x_i$ ，我们有标签 $y_i=1$ 或 $y_i=-1$ 。我们将分类器群中的所有分类器进行测试和排序，具体的方法是：当某个分类器分类失败了，那么会花费 $e^\beta$ 的代价；弱国分类器分类成功了，则会花费 $e^{-\beta}$ 的代价。我们要求 $\beta>0$ ，这样，失败的惩罚就比成功的惩罚要大得多。用非0值来惩罚成功似乎有点奇怪，然而只要对成功的惩罚比对失败的惩罚要小 $(e^{-\beta}<e^{beta})$ ，就一切OK啦。像这种与平时使用的到分类目标的欧几里德距离所不同的错误函数被称为指数型损失函数。

当我们测试分类器群中的 $L$ 个分类器的时候，我们构建了一个矩阵 $S$ （用于侦查）。我们将所有的失败（1）与成功（0）记录其中。矩阵中的第i行观测的是数据点 $x_i$ 的情况。第 $j$ 列观察的是第 $j$ 个分类器的情况。

![矩阵][1]
[1]: http://oawflafkv.bkt.clouddn.com/xz/Pictures/zybuluo/Classifier.png

在上例中，第一个分类器成功分类了 $x_1,x_2$ 和 $x_N$ 。而在 $x_3$ 上分类失败。读这张表，很容易读出其它分类器的成功/失败情况。

AdaBoost的中心思想，是从分类器群中每迭代一次都能抽取出一个分类器（一共有 $M$ 次迭代）。数据集中的元素在每次的迭代中都根据其重要程度，被赋予了不同的权值。一开始，所有的元素被赋予了相同的权重（1，或者 $1/ N$ ，如果我们想要所有的权重加起来是1的话）。当抽取的过程进行时，越困难的例子，即专家组在那个例子上的表现仍然很差的话，则被赋予越来越大的权重。抽取过程专注于为专家组选取新的分类器来解决那些仍然被分类错误的例子。如果抽取的分类器与之前已经抽取的分类器表现差不多，那么似乎就不需要再来抽取它了。如果我们想要抽取一个分类器两次，那我们可以直接将其权重加倍。最好的“团队成员”是那些可以给专家组提供新鲜角度的成员。抽取的分类器应当与目前的分类器互补。

3. Drafting（抽取）

在每一次的迭代中，我们都会将所有的分类器排序。因此我们可以在当前的分类器群中选择出最好的。在第 $m$ 次的迭代中，我们已经在专家组里面选择了 $m - 1$ 个分类器。现在，我们想来抽取下个分类器。现在的分类器的线性组合为：

$C_{(m-1)}(x_i)=\alpha_1k_1(x_i)+\alpha_2k_2(x_i)+\dots +\alpha_{m-1}k_{m-1}(x_i)$

现在，我们要将其扩展为：

$C_m(x_i)=C_{(m-1)}(x_i)+\alpha_mk_m(x_i)$

在第一次迭代时 $(m = 1)$ ， $C_{(m-1)}$ 为0。我们定义全局代价，或全局错误为

$E=\sum_{i=1}^Ne^{-y_i(C_{m-1}(x_i)+\alpha_mk_m(x_i))}$

这里， $\alpha_m$ 和 $k_m$ 需要用一种优化方法来决定。既然说我们的目的是要选取 $k_m$ ，因而我们重写上面的表达式如下：

$\begin{equation} E=\sum_{i=1}^Nw_i^{(m)}e^{-y_i\alpha_mk_m(x_i)} \end{equation}$

其中，

$\begin{equation} w_i^{(m)}=e^{-y_iC_{(m-1)}(x_i)} \end{equation}$

$i=1,2,\dots,N$ 。当第一次迭代时， $w_i^{(1)}=1,i=1,2,\dots,N$ 。在之后的迭代中，我们用向量 $w^{(m)}$ 来表示在第 $m$ 次迭代时，赋予到训练集中每个数据点的权重。我们可以将方程(1)中的加和分为两项。

$E=\sum_{y_i=k_m(x_i)}w_i^{(m)}e^{-\alpha_m}+\sum_{yi\ne k_m(x_i)}w_i^{(m)}e^{\alpha_m}$

这意味着总代价是所有成功项的加权和加上所有不成功的加权和。把第一项加和写成 $W_ce^{-\alpha_m}$ ，并把第二项加和写成 $W_ee^{\alpha_m}$ ，我们可以把式子简化为：

$\begin{equation} E=W_ce^{-\alpha_m}+W_ee^{\alpha_m} \end{equation}$

对于选择 $k_m$ ， $\alpha_m>0$ 的确切值无关紧要。因为对于一个固定的 $\alpha_m$ ，最小化E等价于最小化 $\alpha_mE$ ，并且由于

$e^{\alpha_m}E=W_c+W_ee^{2\alpha_m}$

且 $e^{2\alpha_m}>1$ ，我们可以重写上面的表达式

$e^{\alpha_m}E=(W_c+W_e)+W_e(e^{2\alpha_m}-1)$

现在， $W_c+W_e)$ 是所有数据点的全部权重的加和，即是当前迭代的一个常量。我们要选择的是一个能让右边那一项被最小化，也就是说能让 $W_e$ 最小的分类器。这个相像一下也说得过去：下一次的抽取， $k_m$ ，应当可以给出能使惩罚最小的权重。

4. Weighting(权重)

当已经选择了专家组的第 $m$ 个成员之后，我们需要决定 $\alpha_m$ 。从方程(3)，我们可以立即看到

$\frac{dE}{d\alpha_m}=-W_ce^{-\alpha_m}+W_ee^{\alpha_m}$

另这个表达式为0，并且乘以 $e^{\alpha_m}$ ，我们得到了

$-W_c+W_ee^{2\alpha_m}=0$

最优的 $\alpha_m$ 因此是：

$\alpha_m=\frac{1}{2}\ln\left(\frac{W_c}{W_e}\right)$

可以用 $W$ 来表示所有权重的和，因此我们可以重写上式为：

$\alpha_m=\frac{1}{2}\ln\left(\frac{W-W_e}{W_e}\right)=\frac{1}{2}\ln\left(\frac{1-e_m}{e_m}\right)$

其中 $e_m=W_e/W$ ，是在给定数据点权重的情况下的错误率。

5. PseudoCode（伪代码）

给定一个训练集 $T$ ，其中有数据 $x_i$ ，每个数据有其标签 $y_i\in \{-1,+1\}$ 。我们将 $w_i^{(1)}=1$ 赋值给所有的数据点 $x_i$ 。我们想要从分类器群中抽取 $M$ 个成员。我们执行 $M$ 次迭代。在每一次迭代中，我们称 $W$ 为所有数据点权重的加和， $W_e$ 为分类器弄错的哪些数据点上的权重。

AdaBoost

For m=1 to M
1. 从分类器群中选择一个分类器 $k_m$ ，使得下式最小
  $W_e=\sum_{y_i\ne k_m(x_i)}w_i^{(m)}$
2. 设置分类器的权重 $\alpha_m$ 为
  $\alpha_m=\frac{1}{2}\ln \left(\frac{1-e_m}{e_m} \right)$
  其中， $e_m=W_e/W$ 。
3. 更新下次数据点的权重。如果 $k_m(x_i)$ 是一个错误的判断，那么就设置
  $w_i^{(m+1)}=w_i^{(m)}e^{\alpha_m}=w_i^{m}\sqrt{\frac{1-e_m}{e_m}}$
  否则，设置
  $w_i^{(m+1)}=w_i^{(m)}e^{-\alpha_m}=w_i^{m}\sqrt{\frac{e_m}{1-e_m}}$

有一些关于这个AdaBoost伪代码形式的评论还是挺值得参考的。步骤1中的分类器群可以由分类器族来代替，在给定权重的情况下，可以通过最小化某个错误函数而训练得到最优解。也就是说，分类器群并不需要提前给定，只要它确实存在就可以了。如果说给定了一个分类器的有限集，我们只需要每个分类器都在数据集上跑一遍就可以了。侦查矩阵 $S$ 可以在每个迭代器中被重用，用转置的向量 $w^{(m)}$ 乘以矩阵 $S$ ，可以用来得到 $W_e$ 。

至于权重，可以重写一下，使得只有错误才会导致权重的修改。

注意权重向量 $w^{(m)}$ 是被迭代生成的。它可以在每一次迭代中根据方程(2)全部重新计算，但是迭代地构建更加高效且实现起来更加简单。

同时也注意到，分类器如果做的还没有随机来的好（随机的意思是 $e_m=1/2$ ），那么权值会是0。一个完美的分类器 $e_m=0)$ 会有一个无穷大的权重，因为它将会成为专家组中的唯一成员。一个完美的撒谎者 $e_m=1)$ 会有一个负无穷的权重。我们仅仅取它的相反意见，并且也把它作为专家组的唯一成员。