AdaBoost二分类

最新推荐文章于 2024-05-05 19:16:43 发布

做技术不可耻

最新推荐文章于 2024-05-05 19:16:43 发布

阅读量2.5k

点赞数

文章标签： 1024程序员节集成学习机器学习

本文链接：https://blog.csdn.net/qq_40019838/article/details/120937489

版权

AdaBoost二分类

AdaBoost算法是一个加性模型
$F(x)=\sum_{m=1}^{M}\alpha_mf_m(x)\tag{1}$
其中 $f_m(x)$ 称为弱分类器或基分类器， $\alpha_m$ 为弱分类器的集成权重， $F (x)$ 称为强分类器。

AdaBoost采用迭代式的训练方法。假设已经训练了 $m$ 个弱分类器，在训练第 $m + 1$ 个弱分类器时，增加已有弱分类器分错样本的权重，使得第 $m + 1$ 个弱分类器更关注已有弱分类器分错的样本，因此AdaBoost是通过改变数据的分布来提高弱分类器的差异。

二分类时，其损失函数定义为
$\begin{aligned} \mathcal L(F)&=\text{exp}(-yF(x))\\ &=\text{exp}(-y\sum_{m=1}^{M}\alpha_mf_m(x)) \end{aligned}\tag{2}$
其中 $y$ ， $f_m(x)\in\{+1, -1\}$ 。

假设经过 $m - 1$ 次迭代，得到
$F_{m-1}(x)=\sum_{t-1}^m\alpha_tf_t(x)\tag{3}$
第 $m$ 次迭代是找到一个 $\alpha_m$ 和 $f_m(x)$ 使得下面的损失函数最小
$\mathcal L(\alpha_m,f_m(x))=\sum_{n=1}^N\text{exp}(-y^{(n)}(F_{m-1}(x^{{(n)}})+\alpha_mf_m(x^{(n)})))\tag{4}$
令 $w_m^{(n)}=\text{exp}(-y^{(n)}(F_{m-1}(x^{{(n)}}))$ 表示 $x^{(n)}$ 在第 $m$ 次迭代时的样本权重，损失函数可以写为
$\mathcal L(\alpha_m,f_m(x))=\sum_{n=1}^Nw_m^{(n)}\text{exp}(-\alpha_my^{(n)}f_m(x^{(n)}))\tag{5}$
将上式在 $-\alpha_my^{(n)}f_m(x^{(n)})$ 处二阶泰勒展开，有
$\mathcal L(\alpha_m,f_m(x))=\sum_{n=1}^Nw_m^{(n)}(1-\alpha_my^{(n)}f_m(x^{(n)})+\frac{1}{2}\alpha_m^2)\tag{6}$
首先求解弱分类器 $f_m(x)$ ，有
$\begin{aligned} \mathcal L(\alpha_m,f_m(x))&\propto-\alpha_m\sum_{n=1}^Nw_m^{(n)}y^{(n)}f_m(x^{(n)})\\ &\propto-\alpha_m\sum_{n=1}^Nw_m^{(n)}(1-2\text{I}(y^{(n)}\neq f_m(x^{(n)}))\\ &\propto\alpha_m\sum_{n=1}^Nw_m^{(n)}\text{I}(y^{(n)}\neq f_m(x^{(n)})) \end{aligned}\tag{7}$
当 $\alpha_m>0$ ，最优的分类器 $f_m(x)$ 是使得在样本权重为 $w_m^{(n)}$ 时加权错误率最小的分类器，可以使用基学习器求得。

得到 $f_m(x)$ 后，公式 $(5)$ 可以改写为
$\mathcal L(\alpha_m,f_m(x))=\sum_{y^{(n)}=f_m(x^{(n)})}w_m^{(n)}\text{exp}(-\alpha_m)+\sum_{y^{(n)}\neq f_m(x^{(n)})}w_m^{(n)}\text{exp}(\alpha_m)\tag{8}$
令
$\epsilon_m=\frac{\sum_{y^{(n)}\neq f_m(x^{(n)})}w_m^{(n)}}{\sum_{n=1}^Nw_m^{(n)}}\tag{9}$
表示 $f_m(x)$ 的加权错误率，则公式 $(8)$ 可以改写为
$\mathcal L(\alpha_m,f_m(x))\propto(1-\epsilon_m)\text{exp}(-\alpha_m)+\epsilon_m\text{exp}(\alpha_m)\tag{10}$
令上式关于 $\alpha_m$ 的导数为0，得到
$\alpha_m=\frac{1}{2}\text{log}\frac{1-\epsilon_m}{\epsilon_m}\tag{11}$
AdaBoost的二分类算法总结如下
在这里插入图片描述

做技术不可耻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AdaBoost二分类

AdaBoost二分类AdaBoost算法是一个加性模型F(x)=∑m=1Mαmfm(x)(1)F(x)=\sum_{m=1}^{M}\alpha_mf_m(x)\tag{1}F(x)=m=1∑Mαmfm(x)(1)其中fm(x)f_m(x)fm(x)称为弱分类器或基分类器，αm\alpha_mαm为弱分类器的集成权重，F(x)F(x)F(x)称为强分类器。AdaBoost采用迭代式的训练方法。假设已经训练了mmm个弱分类器，在训练第m+1m+1m+1个弱分类器时，增加已有弱分类器分错
复制链接

扫一扫