AdaBoost

最新推荐文章于 2023-03-15 15:30:13 发布

我想静静，

最新推荐文章于 2023-03-15 15:30:13 发布

阅读量2.1k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42764932/article/details/111402379

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

AdaBoost

AdaBoost是典型的Boosting算法，即找到相对容易的弱学习算法，然后通过反复学习得到一系列弱分类器，组合这些弱分类器得到一个强分类器。Boosting算法要涉及到两个部分，加法模型和前向分步算法。

加法模型就是说强分类器由一系列弱分类器线性相加而成。
前向分步就是说在训练过程中，下一轮迭代产生的分类器是在上一轮的基础上训练得来的。

由于采用的损失函数不同，Boosting算法也因此有了不同的类型，AdaBoost就是损失函数为指数损失的Boosting算法

流程

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),(x_N,y_N)\}$ ，其中， $x_i∈X⊆R^n$ ， $y_i∈Y={-1,1}$ ，迭代次数M

a. 初始化训练样本的权值分布： $D_1=(w_{1,1},w_{1,2},…,w_{1,i}),w_{1,i}=\frac{1}{N},i=1,2,…,N$
b. 对于 $m = 1, 2, \dots, M$

使用具有权值分布 $D_m$ 的训练数据集进行学习，得到弱分类器 $G_m(x)$
计算 $G_m(x)$ 在训练数据集上的分类误差率 $e_m=\sum_{i=1}^Nw_{m,i} I(G_m (x_i )≠y_i )$
计算 $G_m(x)$ 在强分类器中所占权重 $α_m=\frac{1}{2}log \frac{1-e_m}{e_m}$
更新训练数据集的权值分布， $z_m$ 是归一化因子，可将样本概率分布和为1 $w_{m+1,i}=\frac{w_{m,i}}{z_m}exp⁡(-α_m y_i G_m (x_i ))，i=1,2,…,10$
$z_m=\sum_{i=1}^Nw_{m,i}exp⁡(-α_m y_i G_m (x_i ))$

c. 最终分类器
$F(x)=sign(\sum_{i=1}^Nα_m G_m (x))$

证明与推导

adaboost的损失函数为指数函数：
$L (y, f (x)) = e x p [- y f (x)]$
对于分类模型而言，上述损失函数，在分类正确的时候，指数部分为负数；在分类错误的时候，指数部分为正数，符合损失函数的意义。
前向分步为： $f_m(x)=f_{m-1}(x)+\alpha_mG_m(x)$
将前向分步代入损失函数，可得：
$Loss=\sum_{i=1}^Nexp⁡(-y_i f_m (x_i ))=\sum_{i=1}^Nexp⁡(-y_i (f_{m-1} (x_i )+α_m G_m (x_i )))$ 此时 $f_{m-1}(x)$ 已知，即：

$Loss=\sum_{i=1}^N\widetilde{w_{m,i}} exp⁡(-y_i α_m G_m (x_i ))$ $\widetilde{w_{m,i}}=exp⁡(-y_i (F_{m-1} (x)))$
于是分类器 $G_m(x)$ 和这个分类器的权重 $\alpha_m$ 可以表示成：
在这里插入图片描述
先求 $G_m(x)$ ，分类器的权重可以认为是一个确定的数， $G_m(x)$ 是使得分错的（带权重的）样本里损失函数最小的那个，可以写成：

得到 $G^*_m(x)$ 以后，求 $\alpha^*_m$

把上式对 α 求导，再令导函数为 0 ，得
在这里插入图片描述

更新权重

实战

https://blog.csdn.net/FontThrone/article/details/78834807
https://louisscorpio.github.io/2017/11/28/%E4%BB%A3%E7%A0%81%E5%AE%9E%E6%88%98%E4%B9%8BAdaBoost/