AdaBoost算法详解

是时候换个适合有300多粉丝的名字了

已于 2022-04-26 19:37:23 修改

阅读量1.3k

点赞数

分类专栏：机器学习笔记文章标签：机器学习

于 2022-04-25 10:53:44 首次发布

本文链接：https://blog.csdn.net/qq_43331366/article/details/124397815

版权

机器学习笔记专栏收录该内容

7 篇文章 1 订阅

订阅专栏

本文深入探讨了AdaBoost算法的详细步骤，包括数据权重更新、损失函数的合理性以及优化过程中的贪心算法。通过指数损失函数，展示了如何最小化风险以得到理想的分类器。同时，解释了为何在训练过程中，错误分类的样本权重会增加，以促进后续基分类器对困难样本的学习。最后，介绍了如何通过调整数据分布来实现这一目标。

摘要由CSDN通过智能技术生成

《统计学习方法》——李航

回顾上一篇讲的Gradient Boosting方法, 其中比较经典的就是用于分类的AdaBoost。
其具体算法步骤如下：

注：步骤(2)(b)中，计算得到 $e_m$ 后需要判断其值是否小于0.5，如果是则继续下面的步骤，否则需要重启：数据的权值分布设为离散均匀分布，重新采样并训练基分类器。重启的原因很简单，因为 $e_m>0.5$ 时，权重 $\alpha<0$ ，这显然不是我们希望看到的。

大体流程
是不断在新抽取（依概率权重抽取）的样本集合上训练（同一个）基分类器，然后计算该分类器在整体训练集上的分类结果以及分类误差率，这个分类误差率决定了该基分类器的整体权重；上一个基分类器对整体训练集的分类结果及其分类误差率决定了下一次抽样的样本权重（即下一个基分类器的训练样本）。

(2)(d) 中的训练集数据权值更新公式可以写为：
$w_{m+1,i}=\left\{ \begin{aligned} \frac{w_{m,i}}{Z_m}\exp(-\alpha_m) ,\quad & if \quad G_m(x_i)=y_i \\ \frac{w_{m,i}}{Z_m}\exp(\alpha_m), \quad & if \quad G_m(x_i)\ne y_i\\ \end{aligned} \right.$

注意重启步骤保证了 $e_m<0.5$ ，则 $\alpha_m>0$ ，说明在第m个分类器下被正确分类的样本观测 i 的（在下一轮抽样中的）权重会缩小，反之被错误分类的观测的权重会增大。说明后续基分类器将着重解决分类效果差的样本，从而提升整体分类正确率。

接下来讨论 $f (x)$ 的损失函数。
考虑二分类问题，求指数损失函数对应的风险（损失函数的期望即为风险函数）:
$\mathcal R(f) =\mathbb E[l(f)|X]=\mathbb E_{Y}[e^{-Yf(X)}|X]=Pr(Y=1|X)e^{-f(X)}+Pr(Y=-1|X)e^{f(X)}$
求导：
$\frac{\partial}{\partial f}\mathcal R(f|X)=-Pr(Y=1|X)e^{-f(X)}+Pr(Y=-1|X)e^{f(X)}=0$
得到：
$f(X)=\frac 12log(\frac{Pr(Y=1|X)}{Pr(Y=-1|X)})$

上面这些推导可以说明指数损失函数是合理的。因为最小化风险函数得到的分类器结果即为理想状况下的分类器。当 $P r (Y = 1 ∣ X) > P r (Y = - 1 ∣ X)$ 时，显然分类器预测结果为1，这与真实情况吻合。
另外，上面这个式子对应 $\alpha_m$ 的计算公式，因此最终的基分类器线性组合式子 $f(x)=\sum_{m=1}^M \alpha_mG_m(x)$ 是合理的。
也可以通过举例子说明，比如当损失函数最小时， $Y f (X)$ 达到最大，Y与 $f (X)$ 最接近，即当 $y = 1$ ， $f(x)=\sum_m \alpha_m$ 时损失函数最小。

贪心算法
AdaBoost使用贪心算法进行优化。 $f(x)=\sum_m \alpha_mG_m(x)$
只考虑最近的一步，即
$\begin{aligned} \mathcal R(\alpha_mG_m|X_m)&=\mathbb E_{X\sim \mathcal D_m}[e^{-Y\alpha_mG_m(X)}]\\ &=e^{-\alpha_m}Pr_{X\sim \mathcal D_m}(Y=G_m(X))+e^{\alpha_m}Pr_{X\sim \mathcal D_m}(Y\ne G_m(X))\\ &=e^{-\alpha_m}(1-\epsilon_m)+e^{\alpha_m}\epsilon_m \end{aligned}$
在上式中对 $\alpha_m$ 求导即可得到其更新公式: $\alpha_m=\frac 12log(\frac{1-\epsilon_m}{\epsilon_m})$

数据分布 $\mathcal D_m$ 的更新
理想状况下，我们想要最小化：
$\begin{aligned} \mathcal R(f_{m-1}+G_m|\mathcal D) &=\mathbb E_{X\sim \mathcal D}[e^{-Y(f_{m-1}+G_m)}]\\ &=\mathbb E_{X\sim \mathcal D}[e^{-Yf_{m-1}}e^{-YG_m})]\\ &\approx \mathbb E_{X\sim \mathcal D}[e^{-Yf_{m-1}}(1-YG_m(X)+\frac 12)]\\ \end{aligned}$
只考虑第m步的情况，并假设前m-1步的情况如 $f_{m-1}$ 已知。则上述优化问题等价于最大化以下式子：
$\text{maximize} \mathbb E_{X\sim \mathcal D}[e^{-Y(X)f_{m-1}}YG_m(X)]$ 等价于： $\text{maximize} \mathbb E_{X\sim \mathcal D_m}[Y(X)G_m(X)]$
其中, （为了使得上面两个最小化问题的最优解相同）
$\mathcal D_m=\frac{\mathcal De^{-Y(X)f_{m-1}}}{\mathbb E_{X\sim\mathcal D}(e^{-Y(X)f_{m-1}})}$

下标加1则得到
$\begin{aligned} \mathcal D_{m+1}&=\frac{\mathcal De^{-Yf_{m}}}{\mathbb E_{X\sim\mathcal D}(e^{-Yf_{m}})} \\ &= \frac{\mathcal De^{-Yf_{m-1}}e^{-\alpha_mYG_m}}{\mathbb E_{X\sim\mathcal D_{m}}(e^{-Y(X)f_{m}})}\\ &= e^{-\alpha_mYG_m}\frac{\mathbb E_{X\sim\mathcal D}(e^{-Yf_{m-1}})}{\mathbb E_{X\sim\mathcal D}(e^{-Y(X)f_{m}})} \end{aligned}$
此即对应第m步时数据的分布 ${w_{m,i},i=1,...,n\}$
基分类器 $G_m$ 在 $G_{m-1}$ 没有训练好的样本上加强训练，这与Boosting的思想一致。

是时候换个适合有300多粉丝的名字了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
AdaBoost算法详解

《统计学习方法》——李航回顾上一篇讲的Gradient Boosting方法, 其中比较经典的就是用于分类的AdaBoost。其具体算法步骤如下：注：步骤(2)(b)中，计算得到eme_mem后需要判断其值是否小于0.5，如果是则继续下面的步骤，否则需要重启：数据的权值分布设为离散均匀分布，重新采样并训练基分类器。重启的原因很简单，因为 em>0.5e_m>0.5em>0.5时，权重 α<0\alpha<0α<0，这显然不是我们希望看到的。大体流程是.
复制链接

扫一扫