Adaboost学习笔记

最新推荐文章于 2023-05-17 21:12:54 发布

爱学习的程序员

最新推荐文章于 2023-05-17 21:12:54 发布

阅读量282

点赞数

分类专栏：机器学习文章标签：机器学习算法集成学习 Adaboost 分类

本文链接：https://blog.csdn.net/csdn0123zl/article/details/94620869

版权

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

在之前的博客集成学习原理小结中，我们谈到了 Adaboost 算法。它凭借其优越的性能和通用性，成为 Boosting 家族中最为经典的算法之一。因此，在本文中，我们将学习 Adaboost 算法，领略其独特的魅力。

基本思路

在集成学习原理小结中，我们知道 Boosting 算法是一族可将弱分类器提升为强分类器的算法。它的工作机制可总结为：先从训练集中学习得到一个弱学习器，再根据弱学习器的表现对训练样本分布进行调整，更新权重使得之前弱学习器做错的样本得到更多的关注，然后根据调整后的样本重新训练下一个弱学习器；如此重复进行，直至弱学习器个数达到事先的值 $T$ ，最终将 $T$ 个弱学习器结合。

毫无疑问，Adaboost 算法也满足上述基本流程。那么，它到底是怎样实现的呢？其算法的基本流程又是怎样的呢?

Adaboost 算法有多个变种，比较容易理解的是加法模型(additive model)，即基学习器的加权组合，如下图所示，

Adaboost

损失函数优化

在前一小结中，我们对 Adaboost 算法的基本思路有了一定的了解。那么，它的损失函数又是什么呢？我们又怎么优化呢？

前面提到，与 GBDT 算法相同，上述的 Adaboost 算法是一加法模型，并且使用前向分布算法进行求解。不同的是，Adaboost的损失函数为指数函数

$\mathop{argmin}\sum_{i=1}^m exp(-y_iH_t(x))$

我们对上式求导，并令其等于0，可得

$P(y_i=1|x)e^{-H_t(x)} + P(y_i=-1|x)e^{H_t(x)} = 0$

解得

$H_t(x) = \frac{1}{2}\ln \frac{P(y_i=1|x)}{P(y_i=-1|x)}$

因此，可有

$\begin{aligned} sign(H(x)) &= \left\{ \begin{aligned} 1 &, \quad P(y_i=1|x) > P(y_i=-1|x) \\ -1 &, \quad P(y_i=1|x) \le P(y_i=-1|x) \\ \end{aligned} \right. \\ &= \mathop{argmax}\limits_{y \in [-1, 1]} P(y|x)\\ \end{aligned}$

因此，我们可以得知当指数函数最小化等价于分类错误率最小化。而之所以使用指数函数，是因为其有更好的数学性质，如连续可微等。此外，根据前向分布算法，可得上式可改写为

$\mathop{argmin}\limits_{\alpha, h}\sum_{i=1}^m exp(-y_i(H_{t-1}(x) + \alpha h_t(x))$

令 $w_{t, i}^{'} = exp(-y_iH_{t-1}(x))$ 。因为其与参数 $\alpha, h$ 无关，所以与最小化无关，仅仅依赖于 $H_{t-1}(x)$ 。因此，有

$\mathop{argmin}\limits_{\alpha, h}\sum_{i=1}^m w_{t, i}^{'}exp(-y_i \alpha h_t(x))$

为了求解上式，我们不妨求解 $h_t(x)$ 。根据前式，我们知道指数函数最小化等价于分类错误率最小化，因此，

$h_t^*(x) = \mathop{argmin}\limits_{\alpha, h}\sum_{i=1}^m w_{t, i}^{'}I(y_i \neq h_t(x_i))$

将上式代入原损失函数，则有
$\begin{aligned} \mathop{argmin}\limits_{\alpha}\sum_{i=1}^{m}w_{t, i}^{'}exp(-y_i \alpha h_t(x)) &= \sum_{y_i=h_t^*(x_i)}w_{t, i}^{'}e^{-\alpha} + \sum_{y_i \neq h_t^*(x_i)}w_{t, i}^{'}e^{\alpha} \\ &= (e^{\alpha} - e^{-\alpha})\sum_{i=1}^m w_{t, i}^{'}I(y_i \neq h_t^*(x_i)) + \sum_{i=1}^m w_{t, i}^{'}e^{-\alpha} \\ \end{aligned}$