Adaboost

最新推荐文章于 2023-05-27 15:50:09 发布

march_on

最新推荐文章于 2023-05-27 15:50:09 发布

阅读量1.2k

点赞数

分类专栏： machine learning 文章标签： machine-learning

本文链接：https://blog.csdn.net/march_on/article/details/49121617

版权

machine learning 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

Adaboost是集成学习中最常用的算法之一。该算法是损失函数为指数损失的前向分步加法模型。下面是这一结论的证明过程。

10.3 Forward Stagewise Additive Modeling

Initialize $f_0(x)$ = 0

2.For m =1 to M

a Compute

$(β m, γ m) = a r g m i n β, γ \sum i - 1 N L (y i, f m - 1 (x i) + β b (x i; γ))$ $(\beta_m,\gamma_m)= arg \mathop{min}_{\beta, \gamma}\sum_{i-1}^N L(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma))$
b set $f_m(x)=f_{m-1}(x)+\beta_m b(x;\gamma_m)$

该算法在每次迭代 $m$ 中求解最优的基函数(basis function) $b(x;\gamma_m)$ 和对应的参数 $\beta_m$ 加到当前的函数 $f_{m-1}(x)$ 中，这样就生成了 $f_m(x)$ 。前面的函数的权重不会被改变。

对于平方损失函数

L (y, f (x)) = (y - f (x)) 2

$L(y,f(x))=(y-f(x))^2$

L (y i, f m - 1 (x i) + β b (x i; γ)) = (y i - f m - 1 (x i) - β b (x i; γ)) 2 = (γ i m - β b (x i; γ)) 2

$L(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma) ) = ( y_i - f_{m-1}(x_i) - \beta b(x_i;\gamma) )^2=(\gamma_{im} - \beta b(x_i; \gamma) )^2$
其中，

γim=yi−fm−1(xi) $\gamma_{im}=y_i-f_{m-1}(x_i)$ 就是当前模型在第i个样本上的残差。因此，对于平方损失函数来说，在每次迭代中拟合当前残差的最优的

βb(xi;γ) $\beta b(x_i; \gamma)$ 加入到expansion 中。

10.4 Exponential Loss and Adaboost

Adaboost 算法

1.Initialize the observation weights $w_i =1/N, i=1,2,...,N$
2.For m =1 to M

a Fit a classifier $G_m(x)$ to the training data using weights $w_i$
b Compute

$e r r m = \sum N i = 1 w i I ( y i \neq G m ( x i ) ) \sum N i = 1 w i$ $err_m = \frac { \sum_{i=1}^N w_i I(y_i \ne G_m(x_i)) } { \sum_{i=1}^N w_i}$
c Compute $\alpha_m = log((1-err_m)/err_m)$
d set $w_i \to w_i exp[\alpha_m I(y_i \mathrel{{=}\llap{/\,}}G_m(x_i)) ]$

该算法等价于使用指数损失函数的前向分步加法模型（forward stagewise additive modeling)

L (y, f (x)) = e x p (- y f (x))

$L(y,f(x))=exp(-yf(x))$

对于adaboost来说基函数是分类器 $G_m(x) \in \{-1,1\}$ ,使用指数损失，必须先解决如下问题

(β m, G m) = a r g min β, G \sum i = 1 N e x p [- y i (f m - 1 (x i) + β G (x i))]

$(\beta_m, G_m)=arg \min\limits_{\beta,G}\sum_{i=1}^Nexp[-y_i(f_{m-1}(x_i)+\beta G(x_i)) ]$
即每次迭代时生成的分类器和对应的权重，该问题等价于

(β m, G m) = a r g min β, G \sum i = 1 N w (m) i e x p (- β y i G (x i)) (10.9)

$(\beta_m, G_m)=arg \min\limits_{\beta,G}\sum_{i=1}^N w_i^{(m)} exp(-\beta y_i G(x_i) ) \tag{10.9}$
其中,

w(m)i=exp(−yifm−1(xi)) $w_i^{(m)}=exp(-y_if_{m-1}(x_i))$ .因为

w(m)i $w_i^{(m)}$ 既不依赖

β $\beta$ 又不依赖

G(x) $G(x)$ ，它可以看做每个样本的权重。由于该权重依赖于

fm−1(xi) $f_{m-1}(x_i)$ ,所以样本权重在每次迭代时都会变化。

10.分两步解决。
首先，先求 $G_m(x)$ . 对于任何 $\beta > 0$ ,10.9中的 $G_m(x)$ 为：

G m = a r g min G \sum i = 1 N w (m) i I (y i \neq G m (x i))

$G_m= arg \min\limits_{G}\sum_{i=1}^N w_i^{(m)} I(y_i \ne G_m(x_i))$
即最小化加权错误率的分类器(weighted error rate ).这样10.9可以表示为：

\sum i = 1 N w (m) i e x p (- β y i G (x i)) = e - β \sum y i = G (x i) w (m) i + e β \sum y i \neq G (x i) w (m) i

$\begin{align} \sum_{i=1}^N w_i^{(m)} exp(-\beta y_i G(x_i) ) = e^{-\beta} \mathop{\sum}_{y_i=G(x_i)} w_i^{(m)} +e^{\beta} \mathop{\sum}_{y_i \ne G(x_i)} w_i^{(m)} \end{align}$
可以表示为：

e - β \sum i N w (m) i - e - β \sum y i \neq G (x i) w (m) i + e β \sum y i \neq G (x i) w (m) i

$e^{-\beta} \sum_i^N w_i^{(m)} - e^{-\beta} \mathop{\sum}_{y_i\ne G(x_i)} w_i^{(m)} + e^{\beta} \mathop{\sum}_{y_i \ne G(x_i)} w_i^{(m)}$
即

(e β - e - β) \sum i = 1 N w (m) i I (y i \neq G (x i)) + e - β \sum i = 1 N w (m) i

$(e^\beta - e^{-\beta}) \sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) + e^{-\beta} \sum_{i=1}^Nw_i^{(m)}$
将

Gm $G_m$ 带入上式，对

β $\beta$ 求导，并令导数为0，即

(e β - e - β) \sum i = 1 N w (m) i I (y i \neq G (x i)) - e - β \sum i = 1 N w (m) i = 0

$(e^\beta-e^{-\beta} )\sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) -e^{-\beta} \sum_{i=1}^Nw_i^{(m)} =0$
两边同时除以

e−β $e^{-\beta}$

(e 2 β - 1) \sum i = 1 N w (m) i I (y i \neq G (x i)) - \sum i = 1 N w (m) i = 0

$(e^{2\beta}-1 )\sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) -\sum_{i=1}^Nw_i^{(m)} =0$

e 2 β - 1 = \sum N i = 1 w ( m ) i \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) )

$e^{2\beta}-1 =\frac{\sum_{i=1}^Nw_i^{(m)}}{\sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) }$

e 2 β = \sum N i = 1 w ( m ) i \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) ) - 1

$\begin{align} e^{2\beta}&=\frac{\sum_{i=1}^Nw_i^{(m)}}{\sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) }-1 \\ \end{align}$

β = 1 / 2 l o g (\sum N i = 1 w ( m ) i \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) ) - 1)

$\beta=1/2 log(\frac{\sum_{i=1}^Nw_i^{(m)}}{\sum_{i=1}^N w_i^{(m)}I(y_i \ne G(x_i) ) }-1 )$
根据Adaboost算法中的定义:

e r r m = \sum N i = 1 w i I ( y i \neq G m ( x i ) ) \sum N i = 1 w i

$err_m = \frac { \sum_{i=1}^N w_i I(y_i \ne G_m(x_i)) } { \sum_{i=1}^N w_i}$
可以看到

β = 1 / 2 l o g (1 e r r m - 1)

$\beta=1/2log(\frac{1}{err_m} -1 )$

αm=2βm $\alpha_m=2\beta_m$ 跟Adaboost算法中的c步中的基分类器的权重定义是相同的。

然后有

f m (x) = f m - 1 (x) + β m G m (x)

$f_m(x)=f_{m-1}(x)+\beta_mG_m(x)$

根据w的定义 $w_i^{(m)}=exp(-y_if_{m-1}(x_i))$ .可以得到

w (m + 1) i = e x p (- y i f m (x i)) = e x p (- y i (f m - 1 (x i) + β m G m (x i))) = e x p (- y i f m - 1 (x i) - y i β m G m (x i))) = e x p (- y i f m - 1 (x i)) e x p (- y i β m G m (x i)) = w (m) i e x p (- y i β m G m (x i))

$\begin{align} w_i^{(m+1)}&=exp(-y_if_m(x_i)) \\ &=exp(-y_i (f_{m-1}(x_i)+\beta_mG_m(x_i) )) \\ &=exp(-y_if_{m-1}(x_i)-y_i\beta_mG_m(x_i)) ) \\ &=exp(-y_if_{m-1}(x_i)) exp(-y_i\beta_mG_m(x_i)) \\ &=w_i^{(m)}exp(-y_i\beta_m G_m(x_i)) \end{align}$

根据 $-y_iG_m(x_i)=2I(y_i \ne G_m(x_i)) -1$ 上式变成：

w (m + 1) i = w m i e x p (α m I (y i \neq G m (x i)) - β m)

$w_i^{(m+1)}=w_i^mexp(\alpha_mI(y_i \ne G_m(x_i)) -\beta_m)$
其中，

αm=2βm $\alpha_m=2\beta_m$ .由于

exp(βm) $exp(\beta_m)$ 对所有样本都是常数值，所以对权重更新其实没有影响。上面的权重更新和Adaboost算法中的权重更新是一致的。
综上，损失函数是指数函数的前向分步加法模型的基分类器权重和样本权重更新是相同的。

这篇其实是之前看ESL第10章的笔记。Adaboost算法最常用的基础分类器是决策树桩(decision stump)。决策树桩就是只进行一次特征选择而生产两个分支的决策树。根据树的种类可以由很多种实现方式。我在实现时使用的cart分类树，不过特征选择使用的误分类率作为特征选择的标准。

march_on

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Adaboost

Adaboost是集成学习中最常用的算法之一。该算法是损失函数为指数损失的前向分步加法模型。下面是这一结论的证明过程。10.3 Forward Stagewise Additive ModelingInitialize f0(x)f_0(x) = 02.For m =1 to M a Compute (βm,γm)=argminβ,γ∑i−1NL(yi,fm−1(xi)+βb(xi;γ
复制链接

扫一扫