集成机器学习5—Adaboost

最新推荐文章于 2024-07-26 13:24:37 发布

weixin_43484614

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量801

点赞数 28

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43484614/article/details/105232796

版权

1 Boosting

$\bullet$ Boosting：将弱学习器组合成强学习器。
　　 $\bullet$ 构造一个性能很高的预测（强学习器）是一件很困难的事情
　　 $\bullet$ 但构造一个性能一般的预测（弱学习器）并不难
　　　　 $\bullet$ 弱学习器：性能比随机猜测略好(如层数不深的决策树)
$\bullet$ Boosting学习框架
　　 $\bullet$ 学习第一个弱学习器 $\phi_1$
　　 $\bullet$ 学习第二个弱学习器 $\phi_2$
　　 $\bullet$ …
　　 $\bullet$ 组合所有的弱学习器： $\sum_{m=1}^{M}\alpha_m\phi_m(\mathbf x)$
$\bullet$ Boosting的弱学习器是按顺序学习的，相互之间并不独立。而Bagging则需要booststrap采样，然后独立地训练弱学习器。

2 怎样得到互不的学习器？

$\bullet$ 在不同的训练集上训练学习器
$\bullet$ 怎么得到不同的训练集呢？
　　 $\bullet$ 对原始训练集重采样
　　 $\bullet$ 对原始训练集重新加权
　　　　 $\bullet$ 在实际操作中改变目标函数即可。
　　　　思考问题：为什么改变样本的权重，有利于对该样本进行准确的预测？
　　　　在这里插入图片描述

3 AdaBoost的基本思想

$\bullet$ Adaptive Boosting：自适应增强
$\bullet$ 在弱学习器 $\phi_1$ 失败的样本上学习第二个弱学习器 $\phi_2$
$\bullet$ 令弱学习器 $\phi_1$ 在其训练集上的误差为： $\varepsilon_1 = \frac{\sum_{i=1}^{N}w_{1,i}\mathbb I(\phi_1(\mathbf x) \neq y_i)}{z_1}， Z_1 = \sum_{i=1}^{N}w_{1,i}， w_{1,i} = 1/N$
$\bullet$ 将权重由 $w_1$ 变为 $w_2$ ，使得：
$\varepsilon_2 = \frac{\sum_{i=1}^{N}w_{2,i}\mathbb I(\phi_1(\mathbf x) \neq y_i)}{z_2} = \frac{1}{2}，即学习器\phi_1在训练集2上的性能为随机猜测$
$\bullet$ 根据权重 $\mathbf w_2$ 训练弱学习器 $\phi_2$

4 样本重新加权

$\bullet$ 应如何加权呢？分对的样本，其权重除以 $d_1$ ，使权重减小；分错的样本，其权重乘以 $d_1$ ，使权重增大；很明显 $d_1$ 的值应大于1，下面对 $d_1$ 的值进行推导。在这里插入图片描述个人推断：若要使上图中倒数第二个等式能推导出倒数第一个等式，需要满足条件：对于 $\phi_1$ 在训练集2上出错的样本， $\phi_1$ 在训练集上1相同样本同样出错，才能都是乘以 $d_i$ 的关系。正确的样本，同样存在这个现象。在这里插入图片描述

$\bullet$ 以上推导过程的自然语言描述：
1）利用 $\phi_1$ 在权重为 $w_2$ 的训练集上的误差为 $\frac{1}{2}$ 的条件，推导出预测正确的 $w_2$ 权重和 = 预测错误的 $w_2$ 权重和。
2）将 $w_2$ 和 $w_1$ 之间或除以 $d_1$ 或乘以 $d_1$ 的关系代入上一步的等式，得到一个新的等式。
3）针对上一步得到的等式，将 $d_1$ 的部分提出连加符号，连加符号中生育的部分与 $\varepsilon_1$ 存在数量关系，代入这个数量关系，最后就能求出 $d_1$ 。

5 AdaBoost M1算法

给定训练集： $(\mathbf x_1,y_1),...,(\mathbf x_N,y_N)$ ，其中 $y_i \in \{1,-1\}$ 表示 $\mathbf x_i$ 的类别标签
训练集上样本的初始： $w_{1,i} = \frac{1}{N}$
对 m = 1:M，
　　对训练样本采用 $w_{m,i}$ 计算弱分类器 $\phi_m(\mathbf x)$
　　计算该若分类器 $\phi_m(\mathbf x)$ 在分布 $w_m$ 上的错误率： $\varepsilon_m = \frac{\sum_{i=1}^{N}w_{m,i}\mathbb I(\phi_m(\mathbf x_i) \neq y_i)}{\sum_{i=1}^{N}w_{m,i}}$
　　计算： $d_m = \sqrt{(1-\varepsilon_m)/\varepsilon_m}，\alpha_m=log(d_m) = \frac{1}{2}log\frac{1-\epsilon_m}{\epsilon_m}$
　　更新训练样本的分布： $w_{m+1,i} = \frac{w_{m,i}exp(-\alpha_my_i\phi_m(\mathbf x_i))}{Z_{m+1}}$ ，分对的样本： $y_i\phi_m(\mathbf x_i) = 1$ ，否则为-1。
其中 $Z_{m+1} = \sum_{i=1}^{N}w_{m+1,i}$ 为归一化常数，使得 $w_{m+1}$ 是一个分布。
最后的强分类器为： $sgn(\sum_{m=1}^{M}\alpha_m\phi_m(\mathbf x))$
在这里插入图片描述

6 证明：随着弱学习器的数目增多，训练误差越来越小。

在这里插入图片描述以上四个PPT没讲，只讲了指数损失的值会大于等于01损失。也提到了，Logitsit用的是类似于logitstic损失（这个描述可能不对），SVM用到的是合页损失，而Adaboost用到的就是指数损失。

7 测试误差

在这里插入图片描述
左图应该是模型复杂度Ｍ和误差之间的关系。当M增大时，Adaboost的测试误差不会像复杂度一样，先下降后增大，而是会一直下降，类似于Bagging，但跟bagging又可能不那么一样，具体取决于数据。
$\bullet$ 测试误差随着M的增加而减小可用间隔来解释。
$\bullet$ 上述训练误差(0-1损失)只考虑了分类是否正确，还应考虑分类的置信度。
$\bullet$ 分类的置信度，判别函数的值yf(x)。在这里插入图片描述
train error是0-1损失，5的时候就已经为0了。而margins是置信度，5的时候还是有一点点，但M再增大到100，就没有了，也就是会被分的越开。那么问题来了，置信度不是越大越好吗？yf(x)，这样的表达式得到的不是1、-1这样的值吗？是不是这里的f(x)不是类别？或不是最终类别，只是一个类似于概率这样数据。

weixin_43484614

关注

28
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
集成机器学习5—Adaboost

1 Boosting∙\bullet∙ Boosting：将弱学习器组合成强学习器。　　∙\bullet∙ 构造一个性能很高的预测（强学习器）是一件很困难的事情　　∙\bullet∙ 但构造一个性能一般的预测（弱学习器）并不难　　　　∙\bullet∙ 弱学习器：性能比随机猜测略好(如层数不深的决策树)∙\bullet∙ Boosting学习框架　　∙\bullet∙ 学习第一个弱学习...
复制链接

扫一扫