Adaboost

Fang Suk

于 2020-05-27 15:46:21 发布

阅读量234

点赞数

分类专栏：机器学习文章标签： adaboost

本文链接：https://blog.csdn.net/MrR1ght/article/details/106383340

版权

机器学习专栏收录该内容

18 篇文章 1 订阅

订阅专栏

Adaboost

1.思想

通过改变数据概率分布，来得到一系列的弱分类器。

主要有两个问题：

（1）如何改变数据分布

将上一弱分类器误分样例的权重提高，正确分类样例的权重降低

（2）如何将若分类器组合为强分类器

加权求和

2.算法流程

输入：训练样本集 $T={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)},其中x\in\chi\subset{R^n},y\in{\{1,-1\}}$

输入：分类器 $G(x)=\sum_{t=1}^Ta_tG_t(x)$

初始化样本权重 $D_1=(w_{1,1},w_{1,2},...,w_{1,m}),w_{1,i}=\frac{1}{m}$
根据样本分布 $D_t$ ，训练得到基分类器 $G_t(x)$
计算样本分布 $D_t$ 下， $G_t(x)$ 的误差 $\varepsilon_t$
计算该分类器的权重 $a_t=\frac{1}{2}\mathop{ln}\frac{1-\varepsilon_t}{\varepsilon_t}$

5.根据 $a_t$ 调整样本集的分布，得到 $D_{t+1}$ ， $D_{t+1}=(w_{t+1,1},w_{t+1,2},...,w_{t+1,m}),w_{t+1,i}=\frac{w_{t,i}exp(-a_ty_th_t(x))}{z_m}$ , $z_m$ 是归一化因子。

6.重复2，3，4，5步直到得到T个基分类器

tips:

1.分类器的权重 $a_t$ 在当 $\varepsilon_t\le0.5$ 时， $a_t\ge0$ 并且 $a_t$ 随着 $\varepsilon_t$ 的减少而增大（基分类器的误差越小，对于的权重就越大）。当 $\varepsilon_t\ge0.5$ 时， $a_t\le0$ 。此时认为基分类器效果太差，差于随机猜测。抛弃当前基分类器。

3.算法解释

假设空间：加法模型 $G(x)=\sum_{t=1}^TG_t(x)$

损失函数：指数损失函数 $L_{exp(G(x)|D)=E_{x\sim{D}}}(e^{-f(x)G(x)})$

优化算法：前向分布算法：按照2中的算法依次得到T个基分类器

4.证明

4.1证明分类器权重是 $a_t$

输入：当前样本分布 $D_t$ ，当前的基分类器 $h_t(x)$ 。 $h_t(x)$ 的权重未知，设为 $\omega$ 。权重 $\omega$ 应使得指数损失函数在样本分布 $D_t$ 下最小化。即 $\omega=\mathop{argmin}\limits_{\omega}L(wh_t(x)|D_t)$
$L(wh_t(x)|D_t)=E_{x\sim{D_t}}(exp(-f(x)wh_t(x)))\\=exp(-w)p(f(x)=h_t(x))+exp(w)p(f(x)\ne{h_t(x)})\\=exp(-w)(1-\varepsilon_t)+exp(w)\varepsilon_t$
令 $\frac{\partial L(wh_t(x)|D_t}{\partial w}=0$ 求得。 $w=\frac{1}{2}\mathop{ln}\frac{1-\varepsilon_t}{\varepsilon_t}$

4.2对数损失函数等价于极大化后验概率

$L(G(x)|D)=E_{x\sim{D}}(exp(-f(x)G(x)))\\=exp(-G(X))p(f(x)=1|D)+exp(G(x))p(f(x)=-1|D)\\$

对G(x)求偏导得,并令其等于0，可求得G(x)
$\frac{\partial L(G(x)|D)}{\partial G(x)}=-exp(-G(X))p(f(x)=1|D)+exp(G(x))p(f(x)=-1|D)\\$

$G(x)=\frac{1}{2}\mathop{ln}\frac{p(f(x)=1|D)}{p(f(x)=-1|D)}$

考虑到决策函数为sign(G(x))，即有以下关系成立。
$sign(G(x))=\begin{cases}1, &p(f(x)=1|D)>p(f(x)=-1|D)\\ -1, &p(f(x)=1|D)<p(f(x)=-1|D)\end{cases}$
即评价指标为指数损失函数得到的最优模型，实际上是根据最大后验概率进行决策的。