Boosting Adaboost

最新推荐文章于 2022-05-25 22:01:00 发布

kakak_

最新推荐文章于 2022-05-25 22:01:00 发布

阅读量153

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/kakak_/article/details/105138474

版权

38 篇文章 2 订阅

订阅专栏

在boosting系列算法中， Adaboost是最著名的算法之一。Adaboost既可以用作分类，也可以用作回归。

分类

训练集样本： $T=\{(x_,y_1),(x_2,y_2), ...(x_m,y_m)\}$
训练集在第k个弱学习器的输出权重为 $(w_{k1}, w_{k2}, ...w_{km}) ;\;\; w_{1i}=\frac{1}{m};\;\; i =1,2...m$
二元分类问题，输出为{-1，1}
第k个弱分类器 $G_k(x)$ 在训练集上的加权误差率为 $e_k = P(G_k(x_i) \neq y_i) = \sum\limits_{i=1}^{m}w_{ki}I(G_k(x_i) \neq y_i)$
获得了第k个弱分类器分类的误差率 (<0.5)，为了使第k+1个分类器更加robust，应该增加错分样本的权重，降低正确分类样本的权重，使其最终能势均力敌。
$\sum\limits_{i=1}^{m_1}w_{(k+1)i}I(G_{k+1}(x_i) \neq y_i)*d= \sum\limits_{i=1}^{m_2}w_{(k+1)i}I(G_{k+1}(x_i) = y_i)/d$
解得 $d=e^{\alpha_k}$

$\alpha_k = \frac{1}{2}log\frac{1-e_k}{e_k}$
假设第k个弱分类器的样本集权重系数为 $D(k) = (w_{k1}, w_{k2}, ...w_{km})$ ，则对应的第k+1个弱分类器的样本集权重系数为
$w_{k+1,i} = \frac{w_{ki}}{Z_K}exp(-\alpha_ky_iG_k(x_i))$
$Z_k$ 是规范化因子，使更新后的权重和为1:
$Z_k = \sum\limits_{i=1}^{m}w_{ki}exp(-\alpha_ky_iG_k(x_i))$
如果第i个样本分类错误，则 $y_iG_k(x_i))<0$ ，导致样本的权重在第k+1个弱分类器中增大，如果分类正确，则权重在第k+1个弱分类器中减少
Adaboost分类采用的是加权表决法，最终的强分类器为 $sign(\sum\limits_{k=1}^{K}\alpha_kG_k(x))$

回归

对于第k个弱学习器，计算在训练集上的最大误差 $E_k= max|y_i - G_k(x_i)|\;i=1,2...m$
然后计算每个样本的相对误差 $e_{ki}= \frac{|y_i - G_k(x_i)|}{E_k}$
如果用平方误差 $e_{ki}= \frac{(y_i - G_k(x_i))^2}{E_k^2}$
如果用指数误差 $e_{ki}= 1 - exp（\frac{-|y_i - G_k(x_i)|}{E_k}）$
第k个弱学习器的误差率 $e_k = \sum\limits_{i=1}^{m}w_{ki}e_{ki}$
弱学习器权重系数𝛼 $\alpha_k =\frac{e_k}{1-e_k}$
第k+1个弱学习器的样本集权重系数为 $w_{k+1,i} = \frac{w_{ki}}{Z_k}\alpha_k^{1-e_{ki}}$
规范化因子: $Z_k = \sum\limits_{i=1}^{m}w_{ki}\alpha_k^{1-e_{ki}}$
最终的强回归器为 $f(x) =G_{k^*}(x)$
k*即 $ln\frac{1}{\alpha_k}, k=1,2,....K$ 中位数所对应的分类器。

损失函数的优化

上方说明了Adaboost的弱学习器权重系数公式和样本权重的更新，接着说分类器的损失函数及其优化。

Adaboost损失函数为指数函数，即每个分类器损失函数为 $\underbrace{arg\;min\;}_{\alpha, G} \sum\limits_{i=1}^{m}exp(-y_if_{k}(x))$
利用前向分步学习算法的关系可以得到损失函数为 $(\alpha_k, G_k(x)) = \underbrace{arg\;min\;}_{\alpha, G}\sum\limits_{i=1}^{m}exp[(-y_i) (f_{k-1}(x) + \alpha G(x))]$

AdaBoost分类问题算法流程

二元分类

输入为样本集 $T=\{(x_,y_1),(x_2,y_2), ...(x_m,y_m)\}$ ，输出为{-1, +1}，弱分类器迭代次数K。
输出为最终的强分类器𝑓(𝑥)

初始化样本集权重为 $D_1 = (w_{11}, w_{12}, ...w_{1m}) ;\;\; w_{1i}=\frac{1}{m};\;\; i =1,2...m$
对于k = 1, 2，…，K:
- 使用具有权重 $D_k$ 的样本集来训练数据，得到弱分类器 $G_k(x)$
- 计算 $G_k(x)$ 的分类误差率 $e_k = P(G_k(x_i) \neq y_i) = \sum\limits_{i=1}^{m}w_{ki}I(G_k(x_i) \neq y_i)$
- 计算弱分类器的系数 $\alpha_k = \frac{1}{2}log\frac{1-e_k}{e_k}$
- 更新样本集的权重分布 $w_{k+1,i} = \frac{w_{ki}}{Z_k}exp(-\alpha_ky_iG_k(x_i)) \;\; i =1,2,...m$ $Z_k = \sum\limits_{i=1}^{m}w_{ki}exp(-\alpha_ky_iG_k(x_i))$
构建最终分类器: $sign(\sum\limits_{k=1}^{K}\alpha_kG_k(x))$

多元分类

对于Adaboost多元分类算法，其实原理和二元分类类似，最主要区别在弱分类器的系数上。比如Adaboost SAMME算法，它的弱分类器的系数 $\alpha_k = \frac{1}{2}log\frac{1-e_k}{e_k} + log(R-1)$ 其中R为类别数。

Adaboost回归问题算法流程

输入为样本集 $T=\{(x_,y_1),(x_2,y_2), ...(x_m,y_m)\}$ ，弱学习器迭代次数K。
输出为最终的强学习器𝑓(𝑥)

初始化样本集权重为 $(w_{11}, w_{12}, ...w_{1m}) ;\;\; w_{1i}=\frac{1}{m};\;\; i =1,2...m$
对于k = 1, 2，…，K:
- 使用具有权重 $D_k$ 的样本集来训练数据，得到弱学习器 $G_k(x)$
- 计算 $G_k(x)$ 在训练集上的最大误差 $E_k= max|y_i - G_k(x_i)|\;i=1,2...m$
- 计算每个样本的相对误差:
$\;\;\;\;\;$ 如果是线性误差，则 $e_{ki}= \frac{|y_i - G_k(x_i)|}{E_k}$
$\;\;\;\;\;$ 如果是平方误差，则 $e_{ki}= \frac{(y_i - G_k(x_i))^2}{E_k^2}$
$\;\;\;\;\;$ 如果是指数误差，则 $e_{ki}= 1 - exp（\frac{-|y_i - G_k(x_i)|}{E_k}）$
- 计算回归误差率 $e_k = \sum\limits_{i=1}^{m}w_{ki}e_{ki}$
- 计算弱学习器权重系数𝛼 $\alpha_k =\frac{e_k}{1-e_k}$
- 更新样本集的权重分布 $w_{k+1,i} = \frac{w_{ki}}{Z_k}\alpha_k^{1-e_{ki}}$ $Z_k = \sum\limits_{i=1}^{m}w_{ki}\alpha_k^{1-e_{ki}}$
最终的强回归器为 $f(x) =G_{k^*}(x)$
k*即 $ln\frac{1}{\alpha_k}, k=1,2,....K$ 中位数所对应的分类器k。

Adaboost算法的正则化

为了防止Adaboost过拟合，通常也会加入正则化项𝜈，通常称为步长(learning rate)。
弱学习器的迭代 $f_{k}(x) = f_{k-1}(x) + \alpha_kG_k(x)$ 加入正则化 $f_{k}(x) = f_{k-1}(x) + v\alpha_kG_k(x)$
𝜈 的取值范围为0<𝜈≤1。对于同样的训练集学习效果，较小的𝜈意味着需要更多的弱学习器的迭代次数。通常用步长和迭代最大次数决定算法的拟合效果。