第八章提升方法.8.2 AdaBoost的训练误差

oldmao_2000

于 2021-04-07 14:39:19 发布

阅读量489

点赞数 1

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/oldmao_2001/article/details/115464284

版权

统计学习方法专栏收录该内容

36 篇文章

订阅专栏

本文详细介绍了AdaBoost算法的训练误差上界证明过程，通过解析权重更新公式和归一化因子的关系，推导出误差上界表达式。同时，对AdaBoost二分类误差上界进行了深入探讨，利用泰勒级数展开证明了误差上界的不等式。这些理论分析对于理解AdaBoost的工作原理和性能评估具有重要意义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考：在线Latex公式

AdaBoost训练误差上界的证明

p160.AdaBoost算法最终分类器的训练误差界为：
$\cfrac{1}{N}\sum_{i=1}^NI(G(x_i)\ne y_i)\le \cfrac{1}{N}\sum_{i}\exp(-y_if(x_i))=\prod_mZ_m\tag1$
其中
$G(x_i)=sign[f(x)]=sign\left[\sum_{m=1}^M\alpha_mG_m(x)\right]$
正确分类的点可以写为：
$I(G(x_i)\ne y_i)=0\le \exp(-y_if(x_i))=e^{-1}$
错误分类的点可以写为：
$I(G(x_i)\ne y_i)=1\le \exp(-y_if(x_i))=e^{-1}$
因此，公式1的前面部分就是不用证明了，成立。
$Z_m$ 是归一化因子，在权值更新的公式里面出现过：
$w_{m+1,i}=\cfrac{w_{mi}}{Z_m}\exp(-\alpha_my_iG_m(x_i))$
$Z_m$ 的定义为：
$Z_m=\sum_{i=1}^Nw_{mi}\exp(-\alpha_my_iG_m(x_i))$
将权值更新的两边同乘 $Z_m$ ：
$Z_mw_{m+1,i}=w_{mi}\exp(-\alpha_my_iG_m(x_i))\tag2$
有了这个关系，现在就是要证明公式1的后面部分：
$\cfrac{1}{N}\sum_{i}^N\exp(-y_if(x_i))=\prod_mZ_m\tag3$
公式3的左边把 $f(x_i)=\sum_{m=1}^M\alpha_mG_m(x)$ 带入：
$\cfrac{1}{N}\sum_{i=1}^N\exp[-f(x_i)\sum_{m=1}^M\alpha_my_iG_m(x)]\\ =\sum_{i=1}^N\cfrac{1}{N}\exp[-\sum_{m=1}^M\alpha_my_iG_m(x)]$
上式的 $\cfrac{1}{N}$ 相当于第一次为N个数据分配权值，每个数据的权值是 $\cfrac{1}{N}$ ，因此 $\cfrac{1}{N}$ 可以写为 $w_{1,i}$ ，指数的求和放到前面去，变成连乘，上式就变成：
$\sum_{i=1}^Nw_{1,i}\prod_{m=1}^M\exp[-\alpha_my_iG_m(x)]$
把 $m = 1$ 的那项写出来：
$\sum_{i=1}^Nw_{1,i}\exp[-\alpha_1y_iG_1(x)]\prod_{m=2}^M\exp[-\alpha_my_iG_m(x)]\tag4$
对于右边，用公式2来推：
$Z_1w_{2,i}=w_{1i}\exp(-\alpha_1y_iG_1(x_i))\tag5$
把公式4中部分用5代替：
$Z_1\sum_{i=1}^Nw_{2,i}\prod_{m=2}^M\exp[-\alpha_my_iG_m(x)]\tag6$
同样的，按照思路，公式6可以写成：
$Z_1Z_2\sum_{i=1}^Nw_{2,i}\prod_{m=2}^M\exp[-\alpha_my_iG_m(x)]\\ =Z_1Z_2\cdots Z_m\sum_{i=1}^Nw_{m+1,i}$
由于 $\sum_{i=1}^Nw_{m+1,i}$ 是概率分布，因此该项求和为1。
$Z_1Z_2\cdots Z_m=\prod_{m=1}^MZ_m$
证明完毕。

AdaBoost二分类误差上界

先把要证明的东西推出来，根据 $Z_m$ 的定义为：
$Z_m=\sum_{i=1}^Nw_{mi}\exp(-\alpha_my_iG_m(x_i))$
分开写：
$Z_m=\sum_{G(x_i)\ne y_i}w_{mi}\exp(\alpha_m)+\sum_{G(x_i)= y_i}w_{mi}\exp(-\alpha_m)$
由于 $e_m=\sum_{G(x_i)\ne y_i}w_{mi}$ ，上式变成：
$(1-e_m)e^{-\alpha_m}+e_me^{\alpha_m}$
根据导论那节讲的：
$\alpha_m = \cfrac{1}{2}\log\cfrac{1-e_m}{e_m}$
带入上上式：
$(1-e_m)e^{-\cfrac{1}{2}\log\cfrac{1-e_m}{e_m}}+e_me^{\cfrac{1}{2}\log\cfrac{1-e_m}{e_m}}$
又根据： $a\log b=\log b^a,e^{\log e^a}=a$
$(1-e_m)\left(\cfrac{1-e_m}{e_m}\right)^{-\cfrac{1}{2}}+e_m\left(\cfrac{1-e_m}{e_m}\right)^{\cfrac{1}{2}}\\ =(1-e_m)\sqrt{\cfrac{e_m}{1-e_m}}+e_m\sqrt{\cfrac{1-e_m}{e_m}}\\ =\sqrt{e_m(1-e_m)}+\sqrt{e_m(1-e_m)}\\ =2\sqrt{e_m(1-e_m)}$
因此根据上节的结论：
$\prod_{m=1}^MZ_m=\prod_{m=1}^M2\sqrt{e_m(1-e_m)}$
这里令
$\gamma_m=\cfrac{1}{2}-e_m$
则上上式变成：
$\prod_{m=1}^M2\sqrt{1-4\gamma_m^2}$
现在要证明上式有上界：
$\prod_{m=1}^M2\sqrt{1-4\gamma_m^2}\le\exp(-2\sum_{m=1}^M\gamma_m^2)$
这里要用到泰勒级数展开，对于不等式左边：
$f(x)=\sqrt{1-x}=(1-x)^{\cfrac{1}{2}}$
展开后：
$f(x)=f(0)+xf'(0)+\cfrac{1}{2}x^2f''(0)+\cdots$
取前面两阶展开做近似
$f(x)\approx 1-\cfrac{1}{2}-\cfrac{1}{8}x^2$
相应的：
$f(4\gamma^2)=\sqrt{1-4\gamma^2}\approx 1-2\gamma^2-2\gamma^4$
同理，不等式右边：
$\exp(1-2\gamma^2)\approx 1-2\gamma^2+2\gamma^4$
可以看到右边大于等于左边，当 $\gamma=0$ 时，等号成立。