Adaboost公式推导

最新推荐文章于 2023-03-23 00:11:49 发布

qq_36329233

最新推荐文章于 2023-03-23 00:11:49 发布

阅读量411

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

前向分步算法到AdaBoost

前向分步算法与AdaBoost有什么关系呢？除了都属于Boosting的模型，其实AdaBoost是当前向分步算法损失函数为指数损失时的特例。这篇就写一下推导的过程。

前向分步算法 Forward Stagewise Additive Modeling

初始化f0(x)=0” role=”presentation” style=”position: relative;”>f0(x)=0
对于m=1,2,...,M” role=”presentation” style=”position: relative;”>m=1,2,...,M
(a)

(&#x03B2;m,&#x03B3;m)=arg&#x2061;min&#x03B2;,&#x03B3;&#x2211;i=1NL(yi,fm&#x2212;1(xi)+&#x03B2;b(xi;&#x03B3;))” role=”presentation” style=”text-align: center; position: relative;”> (β m, γ m) = arg min β, γ \sum i = 1 N L (y i, f m - 1 (x i) + β b (x i; γ))

(\beta_m,\gamma_m) = \arg\min_{\beta,\gamma} \sum_{i=1}^N L(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma))

(b)

fm(x)=fm&#x2212;1(x)+&#x03B2;mb(x;&#x03B3;m)” role=”presentation” style=”text-align: center; position: relative;”> f m (x) = f m - 1 (x) + β m b (x; γ m)

f_m(x) = f_{m-1}(x) + \beta_m b(x;\gamma_m)

前向分步算法的步骤如上，其实我觉得应该翻译成前向分步累加模型更适合。因为最终的决策函数f(x)” role=”presentation” style=”position: relative;”>f(x)。

对于回归问题，前向分步算法的损失函数可以选平方损失，即

L(yi,f(x))=(yi&#x2212;f(x))2” role=”presentation” style=”text-align: center; position: relative;”> L (y i, f (x)) = (y i - f (x)) 2

L(y_i,f(x)) = (y_i - f(x))^2

所以有

L(yi,fm&#x2212;1(xi)+&#x03B2;b(xi;&#x03B3;))=(yi&#x2212;fm&#x2212;1(xi)&#x2212;&#x03B2;b(xi;&#x03B3;))2=(rim&#x2212;&#x03B2;b(xi;&#x03B3;))2” role=”presentation” style=”position: relative;”> L (y i, f m - 1 (x i) + β b (x i; γ)) = (y i - f m - 1 (x i) - β b (x i; γ)) 2 = (r i m - β b (x i; γ)) 2

L(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma)) = (y_i - f_{m-1}(x_i) - \beta b(x_i;\gamma))^2 \\ = (r_{im} - \beta b(x_i;\gamma))^2

其中rim=(yi−fm−1(xi))” role=”presentation” style=”position: relative;”>rim=(yi−fm−1(xi))，也就是令其去拟合当前模型的残差。

而AdaBoost是个分类器，对于分类问题，平方损失就不太适合了。所以引入指数损失，即

L(y,f(x))=exp(&#x2212;yf(x))” role=”presentation” style=”text-align: center; position: relative;”> L (y, f (x)) = e x p (- y f (x))

L(y,f(x)) = exp(-y f(x))

基本的AdaBoost是一个二分类模型，令其基函数b(x;γ)=G(x)” role=”presentation” style=”position: relative;”>b(x;γ)=G(x)。
则在指数损失的基础上，就需要解决如下问题

(&#x03B2;m,Gm)=arg&#x2061;min&#x03B2;,G&#x2211;i=1Nexp[&#x2212;yi(fm&#x2212;1(xi)+&#x03B2;G(xi))]” role=”presentation” style=”text-align: center; position: relative;”> (β m, G m) = arg min β, G \sum i = 1 N e x p [- y i (f m - 1 (x i) + β G (x i))]

(\beta_m,G_m) = \arg\min_{\beta,G} \sum_{i=1}^N exp[-y_i(f_{m-1}(x_i)+\beta G_(x_i))]

令wi(m)=exp(−yifm−1(xi))” role=”presentation” style=”position: relative;”>w(m)i=exp(−yifm−1(xi))，则上述公式可以写成

(&#x03B2;m,Gm)=arg&#x2061;min&#x03B2;,G&#x2211;i=1Nwi(m)exp(&#x2212;&#x03B2;yiG(xi))” role=”presentation” style=”text-align: center; position: relative;”> (β m, G m) = arg min β, G \sum i = 1 N w (m) i e x p (- β y i G (x i))

(\beta_m,G_m) = \arg\min_{\beta,G} \sum_{i=1}^N w_i^{(m)} exp(-\beta y_i G(x_i))

因为yi∈{−1,1}” role=”presentation” style=”position: relative;”>yi∈{−1,1}，有

e&#x2212;&#x03B2;&#x2211;yi=G(xi)wi(m)+e&#x03B2;&#x2211;yi&#x2260;G(xi)wi(m)” role=”presentation” style=”text-align: center; position: relative;”> e - β \sum y i = G (x i) w (m) i + e β \sum y i \neq G (x i) w (m) i

e^{-\beta} \sum_{y_i=G(x_i)} w_i^{(m)} + e^{\beta} \sum_{y_i \ne G(x_i)} w_i^{(m)}

在这基础上再添上两项，有

e&#x2212;&#x03B2;&#x2211;yi=G(xi)wi(m)+e&#x03B2;&#x2211;yi&#x2260;G(xi)wi(m)+e&#x2212;&#x03B2;&#x2211;yi&#x2260;G(xi)wi(m)&#x2212;e&#x2212;&#x03B2;&#x2211;yi&#x2260;G(xi)wi(m)” role=”presentation” style=”text-align: center; position: relative;”> e - β \sum y i = G (x i) w (m) i + e β \sum y i \neq G (x i) w (m) i + e - β \sum y i \neq G (x i) w (m) i - e - β \sum y i \neq G (x i) w (m) i

e^{-\beta} \sum_{y_i=G(x_i)} w_i^{(m)} + e^{\beta} \sum_{y_i \ne G(x_i)} w_i^{(m)} + e^{-\beta} \sum_{y_i \ne G(x_i)} w_i^{(m)} - e^{-\beta} \sum_{y_i \ne G(x_i)} w_i^{(m)}

再进一步合并，得到

(1)(e&#x03B2;&#x2212;e&#x2212;&#x03B2;)&#x2211;i=1NwiI(yi&#x2260;G(xi))+e&#x2212;&#x03B2;&#x2211;i=1Nwi(m)” role=”presentation” style=”position: relative;”> (e β - e - β) \sum i = 1 N w i I (y i \neq G (x i)) + e - β \sum i = 1 N w (m) i (1)

(e^{\beta} - e^{-\beta}) \sum_{i=1}^N w_i I(y_i \ne G(x_i)) + e^{-\beta} \sum_{i=1}^N w_i^{(m)} \tag 1

对于迭代的第m” role=”presentation” style=”position: relative;”>m取最小值。因此有

Gm=arg&#x2061;minG&#x2211;i=1Nwi(m)I(yi&#x2260;G(xi))” role=”presentation” style=”text-align: center; position: relative;”> G m = arg min G \sum i = 1 N w (m) i I (y i \neq G (x i))

G_m = \arg\min_G \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))

那么βm” role=”presentation” style=”position: relative;”>βm求偏导，得到

&#x2202;L&#x2202;&#x03B2;=e&#x03B2;&#x2211;i=1Nwi(m)I(yi&#x2260;G(xi))+e&#x2212;&#x03B2;&#x2211;i=1Nwi(m)I(yi&#x2260;G(xi))&#x2212;e&#x2212;&#x03B2;&#x2211;i=1Nwi(m)” role=”presentation” style=”text-align: center; position: relative;”> \partial L \partial β = e β \sum i = 1 N w (m) i I (y i \neq G (x i)) + e - β \sum i = 1 N w (m) i I (y i \neq G (x i)) - e - β \sum i = 1 N w (m) i

\frac {\partial_L} {\partial_{\beta}} = e^{\beta} \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i)) + e^{-\beta} \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i)) - e^{-\beta} \sum_{i=1}^N w_i^{(m)}
再令

∂L∂β=0” role=”presentation” style=”position: relative;”>∂L∂β=0∂L∂β=0，得

e&#x03B2;&#x2211;i=1Nwi(m)I(yi&#x2260;G(xi))=[&#x2211;i=1Nwi(m)&#x2212;&#x2211;i=1Nwi(m)I(yi&#x2260;G(xi))]e&#x2212;&#x03B2;” role=”presentation” style=”text-align: center; position: relative;”> e β \sum i = 1 N w (m) i I (y i \neq G (x i)) = [\sum i = 1 N w (m) i - \sum i = 1 N w (m) i I (y i \neq G (x i))] e - β

e^{\beta} \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i)) = [\sum_{i=1}^N w_i^{(m)} - \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))] e^{-\beta}
对两边同求

log” role=”presentation” style=”position: relative;”>loglog，得到

log&#x2211;i=1Nwi(m)I(yi&#x2260;G(xi))+loge&#x03B2;=log[&#x2211;i=1Nwi(m)&#x2212;&#x2211;i=1Nwi(m)I(yi&#x2260;G(xi))]+loge&#x2212;&#x03B2;” role=”presentation” style=”text-align: center; position: relative;”> l o g \sum i = 1 N w (m) i I (y i \neq G (x i)) + l o g e β = l o g [\sum i = 1 N w (m) i - \sum i = 1 N w (m) i I (y i \neq G (x i))] + l o g e - β

log \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i)) + log e^{\beta} = log [\sum_{i=1}^N w_i^{(m)} - \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))] + log e^{-\beta}
又因为

loge−β=−logeβ” role=”presentation” style=”position: relative;”>loge−β=−logeβloge−β=−logeβ，所以有

loge&#x03B2;=12log&#x2211;i=1Nwi(m)&#x2212;&#x2211;i=1Nwi(m)I(yi&#x2260;G(xi))&#x2211;i=1Nwi(m)I(yi&#x2260;G(xi))” role=”presentation” style=”text-align: center; position: relative;”> l o g e β = 1 2 l o g \sum N i = 1 w ( m ) i - \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) ) \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) )

log e^{\beta} = \frac {1} {2} log \frac {\sum_{i=1}^N w_i^{(m)} - \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))} {\sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))}
所以解得

&#x03B2;m=12log&#x2211;i=1Nwi(m)&#x2212;&#x2211;i=1Nwi(m)I(yi&#x2260;G(xi))&#x2211;i=1NwiI(yi&#x2260;G(xi))” role=”presentation” style=”text-align: center; position: relative;”> β m = 1 2 l o g \sum N i = 1 w ( m ) i - \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) ) \sum N i = 1 w i I ( y i \neq G ( x i ) )

\beta_m = \frac {1} {2} log \frac {\sum_{i=1}^N w_i^{(m)} - \sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))} {\sum_{i=1}^N w_i I(y_i \ne G(x_i))}
又因为加权误差率

errm=&#x2211;i=1Nwi(m)I(yi&#x2260;G(xi))&#x2211;i=1Nwi(m)” role=”presentation” style=”text-align: center; position: relative;”> e r r m = \sum N i = 1 w ( m ) i I ( y i \neq G ( x i ) ) \sum N i = 1 w ( m ) i

err_m = \frac {\sum_{i=1}^N w_i^{(m)} I(y_i \ne G(x_i))} {\sum_{i=1}^N w_i^{(m)}}
所以

βm” role=”presentation” style=”position: relative;”>βmβm可以写成

&#x03B2;m=12log1&#x2212;errmerrm” role=”presentation” style=”text-align: center; position: relative;”> β m = 1 2 l o g 1 - e r r m e r r m

\beta_m = \frac {1} {2} log \frac {1 - err_m} {err_m}

求出了Gm(x)” role=”presentation” style=”position: relative;”>Gm(x)的更新公式了

fm(x)=fm&#x2212;1(x)+&#x03B2;mGm(x)” role=”presentation” style=”text-align: center; position: relative;”> f m (x) = f m - 1 (x) + β m G m (x)

f_m(x) = f_{m-1}(x) + \beta_m G_m(x)

根据wi(m)=exp(−yifm−1(xi))” role=”presentation” style=”position: relative;”>w(m)i=exp(−yifm−1(xi))的更新公式

wi(m+1)=exp(&#x2212;yifm(xi))=exp(&#x2212;yi(fm&#x2212;1(xi)+&#x03B2;mGm(xi)))=wi(m)exp(&#x2212;&#x03B2;myiGm(xi))” role=”presentation” style=”position: relative;”> w (m + 1) i = e x p (- y i f m (x i)) = e x p (- y i (f m - 1 (x i) + β m G m (x i))) = w (m) i e x p (- β m y i G m (x i))

w_i^{(m+1)} = exp(-y_i f_m (x_i)) \\ = exp(-y_i (f_{m-1}(x_i)+\beta_m G_m(x_i))) \\ = w_i^{(m)} exp(- \beta_m y_i G_m(x_i))
因为

yi” role=”presentation” style=”position: relative;”>yiyi，代入上面的公式，得到

wi(m+1)=exp(&#x2212;yifm(xi))=wi(m)&#x2219;exp2&#x03B2;mI(yi&#x2260;Gm(xi))&#x2219;exp&#x2212;&#x03B2;m” role=”presentation” style=”text-align: center; position: relative;”> w (m + 1) i = e x p (- y i f m (x i)) = w (m) i ∙ e x p 2 β m I (y i \neq G m (x i)) ∙ e x p - β m

w_i^{(m+1)} = exp(-y_i f_m (x_i)) = w_i^{(m)} \bullet exp^{2 \beta_m I(y_i \ne G_m(x_i))} \bullet exp^{-\beta_m}

再令αm=2βm” role=”presentation” style=”position: relative;”>αm=2βm都一样，所以可以舍去。这样就得到了

wi(m+1)=wi(m)&#x2219;exp&#x03B1;mI(yi&#x2260;Gm(xi))” role=”presentation” style=”text-align: center; position: relative;”> w (m + 1) i = w (m) i ∙ e x p α m I (y i \neq G m (x i))

w_i^{(m+1)} = w_i^{(m)} \bullet exp^{\alpha_m I(y_i \ne G_m(x_i))}
这就与AdaBoost的样本权值更新公式一样了。
而

αm=2βm=log1−errmerrm” role=”presentation” style=”position: relative;”>αm=2βm=log1−errmerrmαm=2βm=log1−errmerrm 也与AdaBoost的弱分类器系数一样。

到这里也就推导出了当前向分步算法的损失函数选为指数损失的时候，前向分步算法也就是AdaBoost啦。