Adaboost 学习笔记

最新推荐文章于 2024-08-16 15:56:31 发布

Nicoleeeee

最新推荐文章于 2024-08-16 15:56:31 发布

阅读量858

点赞数

文章标签：机器学习算法深度学习

本文链接：https://blog.csdn.net/weixin_39708759/article/details/121886837

版权

本文详细解析Adaboost算法，包括权值调整、弱分类器的集成过程，以及从GradientBoosting角度理解其工作原理。通过实例说明错误率降低与弱分类器数量的关系，强调了Adaboost在分类中鲁棒性的增强。

摘要由CSDN通过智能技术生成

视频

1. Adaboost 介绍

Adaboost 的原理是通过每次减少上一轮被正确分类的样本权值，提高被错误分类的样本权值，再进行本轮弱分类器的分类。

2. Adaboost 算法推导

2.1 权值更新

对于每个样本，定义为：
$(x^{n},\hat{y}^{n},u^{n})$
表示每个样本的 $(f e a t u r e, l a b e l, 权重)$ ，一开始默认权重都为1。
假设每个弱分类器一开始都不是烂掉的，也不能完全拟合，即 $\epsilon < 0.5$ ，我们先定义第一个弱分类器的错误率为
$\epsilon_{1} = \frac{\sum\limits_{n} {u_{1}^n} \delta(f_1(x^n) \neq \hat{y}^{n})}{z_{1}}$
其中
$z_t = \sum\limits_{n} u_t^{n}$
我们想调整 $u$ 的权重，把错误分类的权重调大（乘 $d_1$ ），把正确分类的权重调小（除 $d_1$ )，使得刚刚的分类器分类之后的错误率很拉跨，即 $\epsilon = 0.5$ 。

$\epsilon = \frac{\sum\limits_{f_1(x^n) \neq \hat{y}^{n}} {u_{1}^n}d_1} {\sum\limits_{f_1(x^n) \neq \hat{y}^{n}} {u_{1}^n}d_1 + \sum\limits_{f_1(x^n) = \hat{y}^{n}} \frac{{u_{1}^n}}{d_1}} = 0.5$
$\sum\limits_{f_1(x^n) \neq \hat{y}^{n}} {u_{1}^n}d_1 = \sum\limits_{f_1(x^n) = \hat{y}^{n}} \frac{{u_{1}^n}}{d_1}$
$d_1 z_1 \epsilon{1} = \frac{1}{d_1} z_1 (1-\epsilon_{1})$
$d_1 = \sqrt{\frac{1-\epsilon_{1}}{\epsilon_{1}}}$

将这样的权值调整后的样本，放到第二个分类器上去分类。

$u_{2}^{n} = u_{1}^{n} d_{1} = u_{1}^{n} exp(\alpha_{1})$
$u_{2}^{n} = \frac{u_{1}^{n}}{d_{1}} = u_{1}^{n} exp(-\alpha_{1})$

其中
$\alpha_{1} = ln(d_1) = \frac{1}{2} ln(\frac{1-\epsilon_{1}}{\epsilon_{1}})$

结合两个式子，对于每个分类器的权重 $u_t$ 到 $u_{t+1}$ 都有：
$u_{t+1}^{n} = u_{t}^{n} exp(-\hat{y}^{n} f_t(x^n) \alpha_{t})$
把所有项都迭代起来：
$u_{t+1}^{n} = \prod \limits_{t=1}^{T} exp(-\hat{y}^{n} f_t(x^n) \alpha_{t})$
$z_{t+1} = \sum\limits_{n} \prod \limits_{t=1}^{T} exp(-\hat{y}^{n} f_t(x^n) \alpha_{t}) = \sum\limits_{n} exp(-\hat{y}^{n} \sum\limits_{t=1}^{T} f_t(x^n) \alpha_{t})$
其中，这里的权值和还有一个收敛的性质：
$z_1 = N$
$z_t = z_{t-1} \epsilon_{t-1}exp(\alpha_{t}) + z_{t-1} (1-\epsilon_{t-1}) exp(-\alpha_{t}) = 2z_{t-1}\sqrt{(1-\epsilon_{t-1} )\epsilon_{t-1}} = N \prod \limits_{t=1}^{T-1} 2\sqrt{\epsilon_{t}(1-\epsilon_{t})}$

2.2 集成分类器判别

如果采用 Uniform weight 的方法，我们可以简单的把每个分类器的分类简单加总起来，有：
$sign(\sum\limits_{t=1}^{T} f_t(x))$
这样是一种方法，但是不是最好的方法，因为每个分类器其实有好有坏，所以应该给它不同的权重。这里，我们可以发现，由 $\alpha= \frac{1}{2} ln(\frac{1-\epsilon}{\epsilon})$ ，错误率 $\epsilon$ 越低， $\alpha$ 越高。
Non-uniform weight：
$sign(\sum\limits_{t=1}^{T} \alpha_{t} f_t(x))$
接下来，我们要证明弱分类器越多，集成的强分类器的错误率是会越小的，我们设：
$\sum\limits_{t=1}^{T} \alpha_{t} f_t(x)$
定义我们最后判别出来的强分类器的训练数据错误率为
$\frac{1}{n} \sum\limits_{n} \delta(H(x^n) \neq \hat{y}^n) = \frac{1}{n} \sum\limits_{n} \delta(\hat{y}^n G(x^n) < 0) \leq \frac{1}{n} \sum\limits_{n} exp(-\hat{y}^n G(x^n)) = \frac{1}{n} z_{t+1}$
根据2.1的性质，训练数据错误率上限是在不断地减小的，我们可以认为训练数据的错误率也是在不断地减小。这里我们可以认为 Adaboost 的目标函数（Objective function）是:
$\frac{1}{n} \sum\limits_{n} exp(-\hat{y}^n G(x^n)) = \frac{1}{n} \sum\limits_{n} exp(-\hat{y}^n \sum\limits_{t=1}^{T} \alpha_{t}f_t(x))$
$\hat{y}^n$ 与 $G (x)$ 相同符号的时候，希望 $G (x)$ 的绝对值越来越大。

有实验表明，即使训练数据的错误率为 0 了， $G (x)$ 的绝对值还是会随弱分类器数量的增加而变大，说明样本会更清楚属于某一类，这样在测试的时候鲁棒性会变得更好。

3.另一个角度去看Adaboost

3.1 Gradient Boosting 算法过程

初始化 g0(x) = 0
For t=1 to T:
	Find a function ft(x) and alpha[t] to improve gt-1(x)
		gt-1(x) = sum(alpha[i] * fi(x)) (for i in range(1,t-1))
	gt(x) = gt-1(x) + alpha[t] * ft(x)
Output: H(x) = sign(gt(x))

3.2 从 Gradient Boosting 的角度看 Adaboost

假设我们使用梯度下降法去更新 $g_t(x)$ 的函数的时候，希望最小化损失函数，在Adaboost里，损失函数用的是指数损失函数，即：

$\sum\limits_{n} l(\hat{y}^n,g(x^n)) = \sum\limits_{n}exp(-\hat{y}^ng(x^n))$

当 $g(x) = g_{t-1}(x)$ ，考虑更新当前的 $g (x)$
$g_t(x) \leftarrow g_{t-1}(x) - \eta\frac{ \partial L(g) }{\partial g} \bigg|_{g = g_{t-1}}$
$\eta\frac{ \partial L(g) }{\partial g} \bigg|_{g = g_{t-1}} = - \eta \sum\limits_{n}exp(-\hat{y}^ng_{t-1}(x^n))(-\hat{y}^n)$
我们之前有：
$g_t(x) = g_{t-1}(x) + \alpha_{t}f_t(x)$
$\alpha_{t} > 0$ ，如果 $f_t(x^n)$ 与 $\sum\limits_{n}exp(-\hat{y}^ng_{t-1}(x^n))(\hat{y}^n)$ 的更新方向越相同的话（每个函数都相当于是无穷多维得向量），那么就会使 $g_t(x)$ 的 Loss 变得更小，所以我们希望找一个 $f_t(x^n)$ ，使得下面式子最大：
$\sum\limits_{n} exp(-\hat{y}^ng_{t-1}(x^n))(\hat{y}^n) f_t(x^n)$
展开会发现：
$exp(-\hat{y}^ng_{t-1}(x^n)) = exp(-\hat{y}^n\sum\limits_{t=1}^{t-1} \alpha_{t} f_t(x^n)) = \prod_{t=1}^{T-1} exp(-\hat{y}^{n} f_t(x^n) \alpha_{t}) = u_{t}^n$
最后我们对损失函数求个偏导，即可发现就是 Adaboost 的参数

$\sum\limits_{n}exp(-\hat{y}^n(g_{t-1}(x^n) + \alpha_{t} f_{t}(x^n))) = \sum\limits_{n}exp(-\hat{y}^ng_{t-1}(x^n))exp(-\hat{y}^n\alpha_{t} f_{t}(x^n)) = \sum\limits_{f_t(x^n) \neq \hat{y}^{n}} exp(-\hat{y}^ng_{t-1}(x^n))exp(\alpha_{t}) + \sum\limits_{f_t(x^n) = \hat{y}^{n}} exp(-\hat{y}^ng_{t-1}(x^n))exp(-\alpha_{t})$

$\frac{\partial{L}}{\partial{\alpha_{t}}} = 0$

得到:

$\alpha_{t} = \frac{1}{2} ln(\frac{1-\epsilon_{t}}{\epsilon_{t}})$

4.Adaboost 算法流程

请添加图片描述
大致的算法流程：根据上一步的权重，算出当前步的错误率，然后算出调整的系数 $\alpha_t$ 和权重调整之后的总和 $Z_t$ ，再把权重进行归一化算出概率。最后把每个样本在每个分类器上的权重 * 该分类器分成的类别加总，即是这个样本所识别出来的类型。（上文 2.2 有解释）

Nicoleeeee

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Adaboost 学习笔记

视频1. Adaboost 介绍Adaboost 的原理是通过每次减少上一轮被正确分类的样本权值，提高被错误分类的样本权值，再进行本轮弱分类器的分类。2. Adaboost 算法流程2.1 权值更新对于每个样本，定义为：(xn,y^n,un)(x^{n},\hat{y}^{n},u^{n})(xn,y^n,un)表示每个样本的 (feature,label,权重)(feature, label, 权重)(feature,label,权重)，一开始默认权重都为1。假设每个弱分类器一开始都不
复制链接

扫一扫