机器学习笔记（六） Adaboost

最新推荐文章于 2023-03-31 16:11:01 发布

weixin_41405111

最新推荐文章于 2023-03-31 16:11:01 发布

阅读量641

点赞数

分类专栏：机器学习文章标签： Adaboost 集成学习

本文链接：https://blog.csdn.net/weixin_41405111/article/details/81839112

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

零、写在前面

参考资料：

《机器学习》周志华

本文记录了Adabooost算法的推导过程，不是Adaboost的教程。如果之前没有接触过Adaboost，我保证读者看完本文后一定学不会Adaboost算法。

一、推导

1. 为什么指数损失函数可以作为优化目标

首先说明我们使用的符号：

符号	含义
T	基学习器个数
h	基学习器
$\alpha$	不同基学习器的权重
H	集成学习器
f(·)	真实函数（算法要学习的函数）
D	训练样本的分布
E	期望
$l$	损失函数

Adaboost算法是要将T个弱学习器h(x)（决策树桩或神经网络等）加权结合结合成一个集成学习器H(x)：

H (x) = \sum_{t}^{T} α_{t} h_{t} (x)

$H(x) = \sum ^T_t \alpha_t h_t (x)$

这是指数损失函数：

l e x p (H | D) = E x \sim D [e - f (x) H (x)]

$l_{exp} (H|D) = E_{x\sim D} [e^{-f(x)H(x)}]$
我们要证明，令这一损失函数最小化，能使得集成学习的效果最优。

求函数极小值点，最简单的是另其偏导数为零。指数损失函数中，f(x)是真实函数，不是变量，所以我们仅需令其对H(x)的偏导为零：

\partial l e x p ( H | D ) \partial H ( x ) = - e - H (x) P (f (x) = 1 | x) + e - H (x) P (f (x) = - 1 | x) = 0

$\frac {\partial l_{exp} (H|D) }{ \partial H(x)}= -e^{-H(x)}P(f(x)=1|x)+ e^{-H(x)}P(f(x)=-1|x) = 0$
解得：

H (x) = 1 2 l n P ( f ( x ) = 1 | x ) P ( f ( x ) = - 1 ) | x )

$H(x) = \frac{1}{2}ln \frac{P(f(x) = 1|x) }{ P(f(x) = -1)|x)}$
等式两边加sign函数（正值得1，负值为-1）

s i g n (H (x)) = s i g n (1 2 l n P ( f ( x ) = 1 | x ) P ( f ( x ) = - 1 ) | x ))

$sign(H(x)) = sign(\frac{1}{2}ln \frac{P(f(x) = 1|x) }{ P(f(x) = -1)|x)})$
当 P( f(x) = 1 |x) > P( f(x) = -1 |x)，即H(x)预测值为1时，上式值为1，反之预测值为-1时，上式值为-1

故

s i g n (H (x)) = a r g m a x P (f (x) = y | x)

$sign(H(x)) = argmax\ P(f(x) = y|x)$
上式由指数损失函数最小化推导而来，即指数损失函数最小化等价于

argmax P(f(x)=y|x) a r g m a x P ( f ( x ) = y | x ) $argmax\ P(f(x) = y|x)$ ，显然指数损失函数可以作为等价的优化目标。而之所以要使用指数损失函数，是因为其良好的数学性质。

推导过程：

指数损失函数->求偏导数->偏导数置为零->化简->加sign函数

2.权重 $\alpha$ 的更新公式

t时刻，当基分类器 $h_t$ 基于样本分布 $D_t$ 学习产生后，我们要为这个学习器分配一个权重 $\alpha_t$ ，分配的目的是：配合 $h_t$ 的特性，要最小化指数损失函数：

l e x p (H t | D t) = l e x p (α t h t | D t) = E x \sim D [e - f (x) H (x)] = E x \sim D [e - f (x) α t h t (x)] = E x \sim D [e α t | | (f (x) = h t (x)) + e α t | | (f (x) \neq h t (x))] = e - α t P x \sim D t (f (x) = h t (x)) + e α t P x \sim D t (f (x) \neq h t (x)) = e - α t (1 - ϵ t) + e α t ϵ t (1) (2) (3) (4) (5) (6)

$\begin{align} l_{exp} (H_t|D_t)&= l_{exp} (\alpha_t h_t|D_t)\\ &=E_{x\sim D} [e^{-f(x)H(x)}]\\ &=E_{x\sim D} [e^{-f(x)\alpha_t h_t(x)}]\\ &=E_{x\sim D} [e^{\alpha t }||(f(x) = h_t(x))+e^{\alpha t }||(f(x)\neq h_t(x))]\\ &=e^{-\alpha_t }P_{x \sim D_t} (f(x) = h_t(x)) +e^{\alpha_t }P_{x \sim D_t} (f(x) \neq h_t(x)) \\ &=e^{-\alpha_t}(1-\epsilon_t)+e^{\alpha_t}\epsilon_t \end{align}$
其中：
-

Ht H t $H_t$ 表示这一步的集成学习器
- ||(·)为指示函数，自变量为真时值为1，假时为0
- 第四个等号是考虑到预测值为真时，f(x)和h(x)同号
- 错误率

ϵt=Px∼Dt(ht(x)≠f(x)) ϵ t = P x ∼ D t ( h t ( x ) ≠ f ( x ) ) $\epsilon_t = P_{x\sim D_t}(h_t(x) \neq f(x))$

对于这时的指数损失函数求偏导数：

\partial l e x p ( α t h t ) | D t \partial α t = - e - α t (1 - ϵ t) + e α t ϵ t

$\frac{\partial l_{exp} (\alpha_t h_t)|D_t}{\partial \alpha_t} =-e^{-\alpha_t}(1-\epsilon_t)+e^{\alpha_t}\epsilon_t$
令其为零，解得

α t = 1 2 l n (1 - ϵ t ϵ t)

$\alpha_t =\frac{1}{2} ln (\frac{1-\epsilon_t}{\epsilon_t})$

这就是Adaboost每一步权重的更新公式。

3. 样本分布更新公式

Adaboost学习的t时刻，我们已有了 $H_{t-1}$ ，要产生 $h_t$ 。我们希望这一时间步之后的学习器 $H_t = H_{t-1}+h_t$ 能够修正之前的错误，即最小化指数损失函数：

l e x p (H t - 1 + h t) = E x \sim D [e - f (x) H t (x)] = E x \sim D [e - f (x) (H t - 1 + h t))] = E x \sim D [e - f (x) H t - 1 e - f (x) h t] = E x \sim D [e - f (x) H t - 1 (1 - f (x) h t (x) + f 2 ( x ) h 2 t ( x ) 2)] = E x \sim D [e - f (x) H t - 1 (1 - f (x) h t (x) + 1 2)] (7) (8) (9) (10) (11)

$\begin{align} l_{exp}( H_{t-1}+h_t) &=E_{x\sim D} [e^{-f(x)H_t(x)}]\\ &=E_{x\sim D} [e^{-f(x) (H_{t-1}+h_t))}]\\ &=E_{x\sim D} [e^{-f(x) H_{t-1}}e^{-f(x)h_t}]\\ &= E_{x\sim D} [e^{-f(x) H_{t-1}}(1-f(x)h_t(x)+\frac{f^2(x)h^2_t(x)}{2})]\\ &= E_{x\sim D} [e^{-f(x) H_{t-1}}(1-f(x)h_t(x)+\frac{1}{2})]\\ \end{align}$
其中：
第四个等号对

e−f(x)ht e − f ( x ) h t $e^{-f(x)h_t}$ 做了二阶泰勒展开
第五个等号是由于f(x)和h(x)都只能取

±1 ± 1 $\pm1$

回过头来，我们要 $h_t(x)$ 最小化指数损失函数，我们可以去掉上式中的一些常量：

h t (x) = a r g m i n l e x p (H t - 1 + h t | D) = a r g m i n E x \sim D [e - f (x) H t - 1 (1 - f (x) h t (x) + 1 2)] = a r g m i n E x \sim D [e - f (x) H t - 1 (- 1) f (x) h t (x)] = a r g m a x E x \sim D [e - f (x) H t - 1 f (x) h t (x)] = a r g m a x E x \sim D [e - f ( x ) H t - 1 f ( x ) h t ( x ) E x \sim D [ e - f ( x ) H t - 1 ]] = a r g m a x E x \sim D [e - f ( x ) H t - 1 E x \sim D [ e - f ( x ) H t - 1 ] f (x) h t (x)] (12) (13) (14) (15) (16) (17)

$\begin{align} h_t(x) & = argmin\ l_exp(H_{t-1}+h_t |D)\\ & = argmin E_{x \sim D}[e^{-f(x) H_{t-1}}(1-f(x)h_t(x)+\frac{1}{2})]\\ & = argmin E_{x \sim D}[e^{-f(x) H_{t-1}}(-1)f(x)h_t(x)]\\ & = argmax E_{x \sim D}[e^{-f(x) H_{t-1}}f(x)h_t(x)]\\ & = argmax E_{x \sim D}[\frac{e^{-f(x) H_{t-1}}f(x)h_t(x)} {E_{x \sim D}[e^{-f(x)H_{t-1}}]}]\\ & = argmax E_{x \sim D}[\frac{e^{-f(x) H_{t-1}}} {E_{x \sim D}[e^{-f(x)H_{t-1}}]}f(x)h_t(x)]\\ \end{align}$
其中：
第四个等号去掉一个负号，并将argmin更为argmax
第五个等号加上一个分母

Ex∼D[e−f(x)Ht−1] E x ∼ D [ e − f ( x ) H t − 1 ] $E_{x \sim D}[e^{-f(x)H_{t-1}}]$ ，是上一时间步的损失函数，是常量、定值。

下面这一步我没搞懂=.=，可能是概率论还没有学？
令上式中 $\frac{e^{-f(x) H_{t-1}}} {E_{x \sim D}[e^{-f(x)H_{t-1}}]} = \frac{D_t(x)}{D(x)}$
(D为分布)
将上式代入上上式，“由数学期望的定义”，

h t (x) = a r g m a x E x \sim D [e - f ( x ) H t - 1 E x \sim D [ e - f ( x ) H t - 1 ] f (x) h t (x)] = a r g m a x E x \sim D [D t ( x ) D ( x ) f (x) h t (x)] = a r g m a x E x \sim D t [f (x) h t (x)] (18) (19) (20)

$\begin{align} h_t(x) &= argmax E_{x \sim D}[\frac{e^{-f(x) H_{t-1}}} {E_{x \sim D}[e^{-f(x)H_{t-1}}]}f(x)h_t(x)]\\ &= argmax E_{x \sim D}[\frac{D_t(x)}{D(x)}f(x)h_t(x)]\\ &=argmax E_{x \sim D_t}[f(x)h_t(x)] \end{align}$

再一次，f(x)和h(x)都只能取 $\pm1$ ，故可以有
$f(x)h(x)=1-2||（f(x)\neq h(x)）$
将上式代入上上式，

h t (x) = a r g m a x E x \sim D t [f (x) h t (x)] = a r g m a x E x \sim D t [1 - 2 | | （ f (x) \neq h (x) ）] = a r g m a x E x \sim D t [（ - 1 ） | | （ f (x) \neq h (x) ）] = a r g m i n E x \sim D t [| | （ f (x) \neq h (x) ）] (21) (22) (23) (24)

$\begin{align} h_t(x) &=argmax E_{x \sim D_t}[f(x)h_t(x)]\\ &=argmax E_{x \sim D_t}[1-2||（f(x)\neq h(x)）]\\ &=argmax E_{x \sim D_t}[（-1）||（f(x)\neq h(x)）]\\ &=argmin E_{x \sim D_t}[||（f(x)\neq h(x)）] \end{align}$
很明显，最后一个等式达到了我们想要的效果。现在我们再回过头看神秘的

e−f(x)Ht−1Ex∼D[e−f(x)Ht−1]=Dt(x)D(x) e − f ( x ) H t − 1 E x ∼ D [ e − f ( x ) H t − 1 ] = D t ( x ) D ( x ) $\frac{e^{-f(x) H_{t-1}}} {E_{x \sim D}[e^{-f(x)H_{t-1}}]} = \frac{D_t(x)}{D(x)}$ ：

D t + 1 (x) = D ( x ) e - f ( x ) H t E x \sim D [ e - f ( x ) H t ] = D ( x ) e - f ( x ) ( H t - 1 + α t h t ) E x \sim D [ e - f ( x ) H t ] = D ( x ) e - f ( x ) H t - 1 e - f ( x ) α t h t E x \sim D [ e - f ( x ) H t ] = D (x) e - f (x) H t - 1 e - f ( x ) α t h t E x \sim D [ e - f ( x ) H t ] = D t (x) E x \sim D [e - f (x) H t - 1] e - f ( x ) α t h t E x \sim D [ e - f ( x ) H t ] = D t (x) e - f (x) α t h t E x \sim D [ e - f ( x ) H t - 1 ] E x \sim D [ e - f ( x ) H t ] (25) (26) (27) (28) (29) (30)

$\begin{align} D_{t+1}(x) &=\frac{D(x)e^{-f(x) H_{t}}} {E_{x \sim D}[e^{-f(x)H_{t}}]}\\ &=\frac{D(x)e^{-f(x) (H_{t-1}+\alpha_t h_t)}} {E_{x \sim D}[e^{-f(x)H_{t}}]}\\ &=\frac{D(x)e^{-f(x) H_{t-1}}e^{-f(x)\alpha_t h_t}} {E_{x \sim D}[e^{-f(x)H_{t}}]}\\ &=D(x)e^{-f(x) H_{t-1}}\frac{e^{-f(x)\alpha_t h_t}} {E_{x \sim D}[e^{-f(x)H_{t}}]}\\ &=D_t(x)E_{x\sim D}[e^{-f(x) H_{t-1}}]\frac{e^{-f(x)\alpha_t h_t}} {E_{x \sim D}[e^{-f(x)H_{t}}]}\\ &=D_t(x)e^{-f(x)\alpha_t h_t}\frac{E_{x\sim D}[e^{-f(x) H_{t-1}}]} {E_{x \sim D}[e^{-f(x)H_{t}}]}\\ \end{align}$
其中，第五个等号是将与

e−f(x)Ht−1Ex∼D[e−f(x)Ht−1]=Dt(x)D(x) e − f ( x ) H t − 1 E x ∼ D [ e − f ( x ) H t − 1 ] = D t ( x ) D ( x ) $\frac{e^{-f(x) H_{t-1}}} {E_{x \sim D}[e^{-f(x)H_{t-1}}]} = \frac{D_t(x)}{D(x)}$
等价的

D(x)e−f(x)Ht−1=Dt(x)Ex∼D[e−f(x)Ht−1] D ( x ) e − f ( x ) H t − 1 = D t ( x ) E x ∼ D [ e − f ( x ) H t − 1 ] $D(x)e^{-f(x) H_{t-1}} = D_t (x)E_{x \sim D}[e^{-f(x)H_{t-1}}]$ 代入得到。

至此，我们完成了Adaboost算法的所有推导。

weixin_41405111

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记（六） Adaboost

零、写在前面参考资料：《机器学习》周志华本文记录了Adabooost算法的推导过程，不是Adaboost的教程。如果之前没有接触过Adaboost，我保证读者看完本文后一定学不会Adaboost算法。一、推导1. 为什么指数损失函数可以作为优化目标首先说明我们使用的符号：符号含义 T 基学习器个数 h 基学习器...
复制链接

扫一扫