从前向分步算法推导出AdaBoost

最新推荐文章于 2021-12-25 18:05:45 发布

thriving_fcl

最新推荐文章于 2021-12-25 18:05:45 发布

阅读量4.7k

点赞数 12

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/thriving_fcl/article/details/50877957

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

前向分步算法到AdaBoost

前向分步算法与AdaBoost有什么关系呢？除了都属于Boosting的模型，其实AdaBoost是当前向分步算法损失函数为指数损失时的特例。这篇就写一下推导的过程。

前向分步算法 Forward Stagewise Additive Modeling

初始化 $f_0(x) = 0$
对于 $m = 1,2,...,M$
(a)

(β m, γ m) = arg min β, γ \sum i = 1 N L (y i, f m - 1 (x i) + β b (x i; γ))

$(\beta_m,\gamma_m) = \arg\min_{\beta,\gamma} \sum_{i=1}^N L(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma))$

(b)

f m (x) = f m - 1 (x) + β m b (x; γ m)

$f_m(x) = f_{m-1}(x) + \beta_m b(x;\gamma_m)$

前向分步算法的步骤如上，其实我觉得应该翻译成前向分步累加模型更适合。因为最终的决策函数 $f(x)$ 是由一系列的基函数 $b(x;\gamma_m)$ 与相应的权值 $\beta_m$ 累加起来的。前向分步指的是，最小化损失函数获取第 $m$ 步的 $\beta b(x;\gamma)$ 时不影响之前已经获取的参数 $\gamma$ 与系数 $\beta$ 。

对于回归问题，前向分步算法的损失函数可以选平方损失，即

L (y i, f (x)) = (y i - f (x)) 2

$L(y_i,f(x)) = (y_i - f(x))^2$

所以有

L (y i, f m - 1 (x i) + β b (x i; γ)) = (y i - f m - 1 (x i) - β b (x i; γ)) 2 = (r i m - β b (x i; γ)) 2

$L(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma)) = (y_i - f_{m-1}(x_i) - \beta b(x_i;\gamma))^2 \\ = (r_{im} - \beta b(x_i;\gamma))^2$

其中 $r_{im}= (y_i - f_{m-1}(x_i))$ ，这可以理解成是当前模型的残差，为了获取 $\beta_m b(x;\gamma_m)$ ，也就是令其去拟合当前模型的残差。

而AdaBoost是个分类器，对于分类问题，平方损失就不太适合了。所以引入指数损失，即

L (y, f (x)) = e x p (- y f (x))

$L(y,f(x)) = exp(-y f(x))$

基本的AdaBoost是一个二分类模型，令其基函数 $b(x;\gamma)=G(x)$ ，所以有 $G_m(x) \in \lbrace-1,1\rbrace$ 。
则在指数损失的基础上，就需要解决如下问题

(β m, G m) = arg min β, G \sum i = 1 N e x p [- y i (f m - 1 (x i) + β G (x i))]

$(\beta_m,G_m) = \arg\min_{\beta,G} \sum_{i=1}^N exp[-y_i(f_{m-1}(x_i)+\beta G_(x_i))]$

令 $w_i^{(m)} = exp(-y_i f_{m-1}(x_i))$ ，则上述公式可以写成

(β m, G m) = arg min β, G \sum i = 1 N w (m) i e x p (- β y i G (x i))

$(\beta_m,G_m) = \arg\min_{\beta,G} \sum_{i=1}^N w_i^{(m)} exp(-\beta y_i G(x_i))$

因为 $y_i \in \lbrace-1,1\rbrace$ ，且 $y_i$ 要么等于 $G(x_i)$ ，要么不等于。所以将上述公式拆成两部分。暂时省略 $\arg\min$ 之前的部分， $exp$ 简写成 $e$ ，有

e - β \sum y i = G (x i) w (m) i + e β \sum y i \neq G (x i) w (m) i

$e^{-\beta} \sum_{y_i=G(x_i)} w_i^{(m)} + e^{\beta} \sum_{y_i \ne G(x_i)} w_i^{(m)}$

在这基础上再添上两项，有

e - β \sum y i = G (x i) w (m) i + e β \sum y i \neq G (x i) w (m) i + e - β \sum y i \neq G (x i) w (m) i - e - β \sum y i \neq G (x i) w (m) i

$e^{-\beta} \sum_{y_i=G(x_i)} w_i^{(m)} + e^{\beta} \sum_{y_i \ne G(x_i)} w_i^{(m)} + e^{-\beta} \sum_{y_i \ne G(x_i)} w_i^{(m)} - e^{-\beta} \sum_{y_i \ne G(x_i)} w_i^{(m)}$

再进一步合并，得到

(e β - e - β) \sum i = 1 N w i I (y i \neq G (x i)) + e - β \sum i = 1 N w (m) i (1)

$(e^{\beta} - e^{-\beta}) \sum_{i=1}^N w_i I(y_i \ne G(x_i)) + e^{-\beta} \sum_{i=1}^N w_i^{(m)} \tag 1$

对于迭代的第 $m$ 步，假设 $\beta$ 为常数，那么公式的右边以及 $(e^{\beta}-e^{-\beta})$ 都可以看成常数，则要让损失函数取得最小值，只需要让 $\sum_{i=1}^N w_i I(y_i \ne G(x_i))$ 取最小值。因此有

G m = arg min G \sum i = 1 N w (m) i I (y i \neq G (x i))

$G_m = \arg\min_G \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))$

那么 $\beta_m$ 怎么求得呢？现在假设 $G_m$ 已知的情况下，回到公式 $(1)$ 。此时的变量为 $\beta$ ，要让损失函数取得最小值，先对 $\beta$ 求偏导，得到

\partial L \partial β = e β \sum i = 1 N w (m) i I (y i \neq G (x i)) + e - β \sum i = 1 N w (m) i I (y i \neq G (x i)) - e - β \sum i = 1 N w (m) i

$\frac {\partial_L} {\partial_{\beta}} = e^{\beta} \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i)) + e^{-\beta} \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i)) - e^{-\beta} \sum_{i=1}^N w_i^{(m)}$
再令

∂L∂β=0 $\frac {\partial_L} {\partial_{\beta}} = 0$ ，得

e β \sum i = 1 N w (m) i I (y i \neq G (x i)) = [\sum i = 1 N w (m) i - \sum i = 1 N w (m) i I (y i \neq G (x i))] e - β

$e^{\beta} \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i)) = [\sum_{i=1}^N w_i^{(m)} - \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))] e^{-\beta}$
对两边同求

log $log$ ，得到

l o g \sum i = 1 N w (m) i I (y i \neq G (x i)) + l o g e β = l o g [\sum i = 1 N w (m) i - \sum i = 1 N w (m) i I (y i \neq G (x i))] + l o g e - β

$log \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i)) + log e^{\beta} = log [\sum_{i=1}^N w_i^{(m)} - \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))] + log e^{-\beta}$
又因为

loge−β=−logeβ $log e^{-\beta} = -log e^{\beta}$ ，所以有

l o g e β = 1 2 l o g \sum N i = 1 w ( m ) i - \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) ) \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) )

$log e^{\beta} = \frac {1} {2} log \frac {\sum_{i=1}^N w_i^{(m)} - \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))} {\sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))}$
所以解得