统计学习方法（7）前向分步算法推导AdaBoost的详细过程

最新推荐文章于 2023-07-12 14:27:04 发布

简之

最新推荐文章于 2023-07-12 14:27:04 发布

阅读量1k

点赞数 6

分类专栏：机器学习文章标签：前向分步算法

本文链接：https://blog.csdn.net/olizxq/article/details/89400466

版权

机器学习专栏收录该内容

15 篇文章 5 订阅

订阅专栏

由前向分步算法可以推导AdaBoost，用定理叙述这一关系：

定理：
AdaBoost算法是前向分步加法算法的特例。这时，模型是由基本分类器组成的加法模型，损失函数是指数函数。

证明：
前向分步算法学习的是加法模型，当基函数为基本分类器时，该加法模型等价于AdaBoost的最终分类器：
$\sum_{m=1}^{M} \alpha_{m}G_{m}(x)$
由基本分类器 $G_{m}(x)$ 及其系数 $\alpha_{m}$ 组成， $m = 1, 2, \dots, M$ 。前向分步算法逐一学习基函数，这一过程与AdaBoost 算法逐一学习基本分类器的过程一致。下面证明前向分步算法的损失函数是指数损失函数（exponential loss function）：
$L (y, f (x)) = e x p [- y f (x)]$ 时，其学习的具体操作等价于AdaBoost算法学习的具体操作。

假设经过 $m - 1$ 轮迭代前向分步算法已经得到 $f_{m-1}(x)$ ：
$\begin{aligned} f_{m-1}(x) &= f_{m-2}(x) + \alpha_{m-1}G_{m-1}(x) \\ &= \alpha_{1}G_{1}(x) + ... + \alpha_{m-1}G_{m-1}(x) \end{aligned}$

在第m轮迭代得到 $\alpha_{m}$ ， $G_{m}(x)$ 和 $f_{m}(x)$ ：
$f_{m}(x) = f_{m-1}(x) + \alpha_{m}G_{m}(x)$
目标是使前向分步算法得到的 $\alpha_{m}$ 和 $G_{m}(x)$ 使 $f_{m}(x)$ 在训练集T上的指数损失最小，即：
$\begin{aligned} (\alpha_m,G_{m}(x)) & = \arg\min_{\alpha,G} \sum_{i=1}^N L(y_i, f_{m}(x)) \\ & = \arg\min_{\alpha,G} \sum_{i=1}^N exp[-y_i(f_{m-1}(x_i)+\alpha G(x_i))] \tag1 \end{aligned}$

注：
对于回归问题，前向分步算法的损失函数可以选平方损失，即
$L(y_i,f(x)) = (y_i - f(x))^2$
所以有：
$\begin{aligned} L(y_i,f_{m-1}(x_i)+\alpha G(x_i)) & = (y_i - f_{m-1}(x_i) - \alpha G(x_i))^2 \\ & = (r_{mi} - \alpha G(x_i))^2 \end{aligned}$
其中 $r_{mi}= (y_i - f_{m-1}(x_i))$ ，这就是当前模型的残差，为了获取 $\alpha G(x_i)$ ，也就是令其去拟合当前模型的残差。
$\;$
AdaBoost是个分类器，对于分类问题，平方损失就不太适合了。所以引入指数损失。

将（1）式写为：
$\begin{aligned} (\alpha_m,G_m) = \arg\min_{\alpha,G} \sum_{i=1}^N \overline{w}_{mi} exp(-\alpha y_i G(x_i)) \end{aligned} \tag2$
其中， $\overline{w}_{mi} = exp(-y_i f_{m-1}(x_i))$ 。因为 $\overline{w}_{mi}$ 既不依赖 $\alpha$ 也不依赖于 $G$ ，所以与最小化无关。但 $\overline{w}_{mi}$ 依赖于 $f_{m-1}(x)$ ，随着每一轮迭代而发生改变。

现证使式（2）达到最小的 $\alpha_{m}^{*}$ 和 $G^{*}_{m}(x)$ 就是AdaBoost算法所得到的 $\alpha_{m}$ 和 $G_{m}(x)$ 。求解（2）式可分两步：

第一步：求 $G^{*}_{m}(x)$ ：

因为 $y_i∈\{−1,1\}$ ，且 $y_i$ 要么等于 $G(x_i)$ ，要么不等于，所以将上述公式拆成两部分。PS：暂时省略 $a r g m i n$ 。
$\begin{aligned} \sum_{i=1}^N & \overline{w}_{mi} exp(-\alpha y_i G(x_i)) \\ & = e^{-\alpha} \sum_{y_i=G_m(x_i)} \overline w_{mi} + e^{\alpha} \sum_{y_{i} = \not G_{m}(x_i)} \overline w_{mi} \\ & = e^{-\alpha} \sum_{y_i=G_m(x_i)} \overline w_{mi} + e^{\alpha} \sum_{y_i = \not G_m(x_i)} \overline w_{mi} + e^{-\alpha} \sum_{y_{i} = \not G_m(x_i)} \overline w_{mi} - e^{-\alpha} \sum_{y_i = \not G_m(x_i)} \overline w_{mi} \\ \end{aligned}$

上式合并，得到：
$\begin{aligned} (e^{\alpha} - e^{-\alpha}) \sum_{i=1}^N \overline w_{mi} I(y_i = \not G_m(x_i)) + e^{-\alpha} \sum_{i=1}^N \overline w_{mi} \tag 3 \end{aligned}$

对于迭代的第 $m$ 步，假设 $\alpha$ 为常数，那么上式第二项以及 $(e^{\alpha} - e^{-\alpha})$ 都可以看成常数，要让损失函数取得最小值，只需使 $\sum_{i=1}^N \overline w_{mi} I(y_i = \not G_m(x_i))$ 取最小值。因此有：
$G^{*}_{m}(x) = \arg\min_G \sum_{i=1}^N \overline w_{mi} I(y_i = \not G(x_i))$ 此分类器 $G^{*}_{m}(x)$ 即为AdaBoost算法的基本分类器 $G_{m}(x)$ ，因此它是第m轮加权训练数据分类误差率最小的基本分类器。

第二步：求 $\alpha^{*}_{m}$ ：

现假设 $G_m$ 已知的情况下，回到公式(3)。此时的变量为 $\alpha$ ，要让损失函数取得最小值，先对 $\alpha$ 求偏导，得到：
$\frac {\partial_L} {\partial_{\alpha}} = e^{\alpha} \sum_{i=1}^N \overline w_{mi} I(y_i = \not G(x_i)) + e^{-\alpha} \sum_{i=1}^N \overline w_{mi} I(y_i = \not G(x_i)) - e^{-\alpha} \sum_{i=1}^N \overline w_{mi}$

再令 $\frac {\partial_L} {\partial_{\alpha}} = 0$ ，得：
$e^{\alpha} \sum_{i=1}^N \overline w_{mi} I(y_i = \not G(x_i)) = [\sum_{i=1}^N \overline w_{mi} - \sum_{i=1}^N \overline w_{mi} I(y_i = \not G(x_i))] e^{-\alpha}$
对两边同求log，得到：
$\sum_{i=1}^N \overline w_{mi} I(y_i = \not G(x_i)) + log e^{\alpha} = log [\sum_{i=1}^N \overline w_{mi} - \sum_{i=1}^N \overline w_{mi} I(y_i = \not G(x_i))] + log e^{-\alpha}$

又因为 $e^{-\alpha} = -log e^{\alpha}$ ，所以有：
$e^{\alpha} = \frac {1} {2} log \frac {\sum_{i=1}^N \overline w_{mi} - \sum_{i=1}^N \overline w_{mi} I(y_i = \not G(x_i))} {\sum_{i=1}^N \overline w_{mi} I(y_i = \not G(x_i))}$
解得：
$\alpha_m = \frac {1} {2} log \frac {\sum_{i=1}^N \overline w_{mi} - \sum_{i=1}^N \overline w_{mi} I(y_i = \not G(x_i))} {\sum_{i=1}^N \overline w_i I(y_i = \not G(x_i))}$
又因为加权误差率：
$e_m = \frac {\sum_{i=1}^N \overline w_{mi} I(y_i = \not G(x_i))} {\sum_{i=1}^N \overline w_{mi}}$
所以 $\alpha_m$ 可以写成
$\alpha_m = \frac {1} {2} log \frac {1 - e_m} {e_m}$

求出了 $G_m(x)$ 与 $\alpha_m$ ，就可以写出 $f (x)$ 的更新公式：
$f_m(x) = f_{m-1}(x) + \alpha_m G_m(x)$

根据 $\overline w_{mi} = exp(-y_i f_{m-1}(x_i))$ ，可得 $w$ 的更新公式：
$\begin{aligned} \overline w_{m+1,i} & = exp(-y_i f_m (x_i)) \\ & = exp(-y_i (f_{m-1}(x_i)+\alpha_m G_m(x_i))) \\ & = \overline w_{m,i} exp(- \alpha_m y_i G_m(x_i)) \end{aligned}$
这与AdaBoost算法的样本权值更新只差规范化因子，因而等价。

这也就推导出：当前向分步算法的损失函数为指数损失时，前向分步算法就是AdaBoost。

参考：
《统计学习方法》李航
从前向分步算法推导出AdaBoost

简之

关注

6
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
统计学习方法（7）前向分步算法推导AdaBoost的详细过程

由前向分步算法可以推导Adaboost，用定理叙述这一关系：定理：AdaBoost算法是前向分步加法算法的特例。这时，模型是由基本分类器组成的加法模型，损失函数是指数函数。证明：前向分步算法学习的是加法模型，当基函数为基本分类器时，该加法模型等价于AdaBoost的最终分类器：f(x)=∑m=1MαmGm(x)f(x) = \sum_{m=1}^{M} \alpha_{m}G_{m}(x...
复制链接

扫一扫

专栏目录