AdaBoost算法（二）——理论推导篇

最新推荐文章于 2020-12-14 15:26:18 发布

天泽28

最新推荐文章于 2020-12-14 15:26:18 发布

阅读量2k

点赞数 6

分类专栏：机器学习&深度学习文章标签： AdaBoost Boosting 集成学习提升方法

本文链接：https://blog.csdn.net/u012328159/article/details/91150176

版权

机器学习&深度学习专栏收录该内容

86 篇文章 252 订阅

订阅专栏

AdaBoost算法（二）——理论推导篇

集成学习系列博客：

在前面AdaBoost算法（一）——基础知识篇中详细介绍了adaboost的基础知识和原理，如果你只想了解adaboost的基本原理那么只看那篇博客就足够了，或者是你看到公式就头大，也可以跳过这篇博客了，因为这篇博客讲的AdaBoost理论推导确实很枯燥，并且这个理论推导对于不搞学术研究，不做改进，只是用下adaboost的同学来说没啥意义，所以只看AdaBoost算法（一）——基础知识篇也是完全ok的。
这篇博客主要分以下两个方面来介绍下adaboost的理论推导方面吧，这篇博客基于李航老师的《统计学习方法》写成。

Adabost算法的训练误差分析
用加法模型来解释Adaboost

一、Adabost算法的训练误差分析

首先先来理论分析下adaboost算法的误差，以下公式大多都是直接摘自李航老师《统计学习方法》，我只是添加了一些细化的步骤和解释。我们在上一篇adaboost的基础知识里也说了adaboost的误差为： $\frac{1}{N}\sum_{i=1}^{N}I(G(x_i) = \not y_i)$ ，那么这个误差有没有上届？《统计学习方法》书中给出了并且给出了证明，adaboost算法最终分类器的训练误差界为：
$\frac{1}{N}\sum_{i=1}^{N}I(G(x_i) = \not y_i) \leq \frac{1}{N}\sum_{i}exp(-y_i f(x_i)) = \prod_{m}Z_m \tag{1}$

这里的 $G (x)$ 表示最终的分类器， $G_m(x)$ 表示第m次迭代时的基分类器， $f (x)$ 表示基分类器的线性组合，即 $f(x)=\sum_{m=1}^{M}\alpha_mG_m(x)$ ， $Z_m$ 为前一篇博客中提到的规范化因子， $Z_m=\sum_{i=1}^{N}w_{mi}exp(-\alpha_my_iG_m(x_i))$ 。下面主要是来证明上面这个公式，证明：
当 $G(x_i)= \not y_i$ 时，有 $y_if(x_i) < 0$ ，因此 $exp(-y_if(x_i)) \ge 1$ ，直接可得 $\frac{1}{N}\sum_{i=1}^{N}I(G(x_i) = \not y_i) \leq \frac{1}{N}\sum_{i}exp(-y_i f(x_i))$ 。
现在来证明 $\frac{1}{N}\sum_{i}exp(-y_i f(x_i)) = \prod_{m}Z_m$ ，首先根据上一篇博客AdaBoost算法（一）——基础知识篇中公式能够知道： $w_{mi}exp(-\alpha_my_iG_m(x_i)) = Z_mw_{m+1,i}$
证明：

$\begin{aligned} &\frac{1}{N}\sum_{i}exp(-y_i f(x_i)) \\ &=\frac{1}{N}\sum_{i}exp(-\sum_{m=1}^{M}\alpha_my_i G_m(x_i)) \\ &= \sum_{i}w_{1i} \cdot exp[-\alpha_1y_iG_1(x_i) - \alpha_2y_iG_2(x_i) - ... - \alpha_My_iG_M(x_i)] \tag{2}\\ &= \sum_{i}w_{1i} \prod_{m=1}^{M}exp(-\alpha_my_i G_m(x_i))\\ &= Z_1\sum_{i}w_{2i} \prod_{m=2}^{M}exp(-\alpha_my_i G_m(x_i)) \\ &= Z_1Z_2\sum_{i}w_{3i} \prod_{m=3}^{M}exp(-\alpha_my_i G_m(x_i)) \\ &=\cdot \cdot\cdot\\ &= Z_1Z_2 \cdot \cdot\cdot Z_{M-1}\sum_{i}w_{Mi}exp(-\alpha_My_i G_M(x_i)) \\ &=\prod_{m}Z_m\\ \end{aligned}$

上面的定理说明了：只要在每一轮选择适当的 $G_m$ 使得 $Z_m$ 最小，则可以使得adaboost的训练误差下降最快。
特别地，对于二分类而言，adaboost的训练误差是以指数速度下降的，即：
$\prod_{m=1}^{M}Z_m=\prod_{m=1}^{M}[2\sqrt{e_m(1-e_m)}] = \prod_{m=1}^{M}\sqrt{(1-4\gamma_m^2)} \leq exp(-2\sum_{m=1}^{M}\gamma_m^2) \tag{3}$
这里， $\gamma_m=\frac{1}{2}-e_m$ 。
下面来证明（3）式：
$\begin{aligned} Z_m &= \sum_{i=1}^{N}w_{mi}exp(-\alpha_my_iG_m(x_i )) \\ &=\sum_{y_i=G_m(x_i)}w_{mi}e^{-\alpha_m} + \sum_{y_i= \not G_m(x_i)}w_{mi}e^{\alpha_m} \tag{4}\\ &=e^{-\alpha_m}\sum_{y_i=G_m(x_i)}w_{mi} + e^{\alpha_m}\sum_{y_i= \not G_m(x_i)}w_{mi}\\ &=e^{-\alpha_m}(1-e_m) + e^{\alpha_m}e_m \\ &= (1-e_m)e^{-\frac{1}{2}\log\frac{1-e_m}{e_m}} + e_me^{\frac{1}{2}\log\frac{1-e_m}{e_m}} \\ &= 2\sqrt{e_m(1-e_m)} \\ &= \sqrt{1-4\gamma_m^2} \end{aligned}$
下面来证不等式
$\prod_{m=1}^{M}\sqrt{(1-4\gamma_m^2)} \leq exp(-2\sum_{m=1}^{M}\gamma_m^2)$
因为
$exp(-2\sum_{m=1}^{M}\gamma_m^2) = exp(-2\gamma_1^2)\cdot exp(-2\gamma_2^2)\cdot\cdot\cdot exp(-2\gamma_M^2) = \prod_{m=1}^{M}exp(-2\gamma_m^2) \tag{5}$
即证明：
$\prod_{m=1}^{M}\sqrt{(1-4\gamma_m^2)} \leq \prod_{m=1}^{M}exp(-2\gamma_m^2)$
这个用泰勒展开式在点 $x = 0$ 处对 $e^{-2r^2}$ 和 $\sqrt{1-4r^2}$ 展开，这里要用到的泰勒公式如下：
$e^x = 1+x + \frac{1}{2!}x^2 + \frac{1}{3!}x^3 + \frac{1}{4!}x^4 + \cdot \cdot \cdot + \frac{1}{n!}x^n$
$(1+x)^\alpha = 1 + \alpha x + \frac{\alpha (\alpha-1)}{2!}x^2 + \cdot \cdot \cdot + \frac{\alpha (\alpha-1) \cdot \cdot \cdot (\alpha- n + 1)}{n!}x^n$
因此 $\sqrt{1-4r^2}$ 的泰勒展开式为：
$\sqrt{1+(-4r^2)} = 1 - 2r^2 - 2r^4 + \cdot \cdot \cdot$
$e^{-2r^2}$ 的泰勒展开式为：
$e^{-2r^2} = 1 - 2r^2 + 2r^4 +\cdot\cdot\cdot$
所以， $\sqrt{1-4r^2} < e^{-2r^2}$ ，因此 $\prod_{m=1}^{M}\sqrt{(1-4\gamma_m^2)} \leq \prod_{m=1}^{M}exp(-2\gamma_m^2)$ ，得证。这实际上表明了adaboost的训练误差是以指数速度下降的。

二、用加法模型来解释Adaboost

这一部分主要是用加法模型和指数损失函数来解释adaboost。在统计学习方法书中写到，前向分步法学习的是加法模型，当基函数为基本分类器时，该加法模型等价于AdaBoost的最终分类器
$\sum_{m=1}^{M}\alpha_mG_m(x)$
前向分步法从前往后逐一学习基函数，与adaBoost逐一学习基分类器的过程是一致的。并且当前向分步法的损失函数是指数损失函数( $L (y, f (x)) = e x p [- y f (x)]$ )时，其学习的具体操作等价于AdaBoost。下面就是证明，如何从加法模型中使用前向分步法推导出AdaBoost，对公式头大的同学可以略过此节了。。即使看的话，我依然建议去看统计学习书中的这部分，我只是把其中的步骤做了一点细化的补充，为了让公式更容易看懂而已。。
假设经过 $m - 1$ 次迭代前向分步法得到 $f_{m-1}(x)$ ：
$f_{m-1}(x) = f_{m-2}(x) + \alpha_{m-1}G_{m-1}(x) = \alpha_{1}G_{1}(x) + \alpha_{2}G_{2}(x) + \cdot \cdot \cdot + \alpha_{m-1}G_{m-1}(x)$
则在第m次迭代有：
$f_{m}(x) = f_{m-1}(x) + \alpha_{m}G_{m}(x)$
目标则是使前向分步法得到的 $\alpha_m$ ， $G_m(x)$ 使 $f_m(x)$ 在训练集上的指数损失函数最小，即：
$(\alpha_m, G_m(x)) = \arg\min_{\alpha, G}\sum_{i=1}^{N}exp[-y_i(f_{m-1}(x_i) + \alpha G(x_i)) ] \tag{6}$
若令 $\bar{w}_{mi}=exp[-y_if_{m-1}(x_i)]$ ，则公式（6）为：
$(\alpha_m, G_m(x)) = \arg\min_{\alpha, G}\sum_{i=1}^{N}\bar{w}_{mi}exp[-y_i\alpha G(x_i) ] \tag{7}$
因为 $\bar{w}_{mi}$ 和 $\alpha$ 与 $G$ 无关，因此最小化时可以把它视为常数。
下面我们来看看怎么求 $\alpha^*_m$ 和 $G^*_m(x)$ 使得公式(7)最小，

先来求 $G^*_m(x)$ ，对于任意的 $\alpha>0$ ，要想使得公式（7）最小，则要 $y_iG(x_i)$ 最小，则要 $y_iG(x_i)$ 最大，那么就需要 $G^*_m(x)$ 的错误率最小，因此：
$G^*_m(x) = \arg\min_G\sum_{i=1}^{N}\bar{w}_{mi}I(y_i = \not G(x_i)) \tag{8}$
此分类器 $G^*_m(x)$ 即为AdaBoost算法的基分类器 $G_m(x)$ ，因为它是使得第m次迭代时加权训练数据分类误差最小的基分类器。

再来求 $\alpha^*_m$ ：
$\begin{aligned} &\sum_{i=1}^{N}\bar{w}_{mi}exp(-y_i \alpha G(x_i)) \\ &=\sum_{y_i = G_m(x_i)} \bar{w}_{mi} e^{-\alpha} + \sum_{y_i = \not G_m(x_i)} \bar{w}_{mi} e^{\alpha}\\ &=(e^\alpha - e^{-\alpha})\sum_{i=1}^{N}\bar{w}_{mi}I(y_i = \not G(x_i)) + e^{-\alpha}\sum_{i=1}^{N}\bar{w}_{mi} \tag{9} \end{aligned}$
公式（9）对 $\alpha$ 求导，并使得导数为0，可解得：
$\alpha^{*}_m = \frac{1}{2}log\frac{1-e_m}{e_m} \tag{10}$
其中，
$e_m = \frac{\sum_{i=1}^{N}\bar{w}_{mi}I(y_i = \not G_m(x_i))}{\sum_{i=1}^{N}\bar{w}_{mi}} \tag{11}$
至于公式(11)为何还等于 $\sum_{i=1}^{N}w_{mi}I((y_i)= \not G_m(x_i))$ 我是没看懂，请路过的大佬不啬赐教~
能够看出这个 $\alpha^*_m$ 与adaboost的 $\alpha_m$ 完全一致。

再来看样本权重更新，因为 $\bar{w}_{mi}=exp[-y_if_{m-1}(x_i)]$ ，所以：
$\begin{aligned} \bar{w}_{m+1,i}&=exp[-y_if_{m}(x_i)] \\ &=exp[-y_i(f_{m-1}(x) + \alpha_mG_m(x))] \\ &=exp(-y_if_{m-1}(x_i))\cdot exp(-y_i\alpha_mG_m(x)) \\ &=\bar{w}_{mi}exp(-y_i\alpha_mG_m(x)) \end{aligned}$
这与Adaboost的样本权重更新是一致的。