Adaboost

最新推荐文章于 2022-12-05 14:10:36 发布

再见鲁鲁修

最新推荐文章于 2022-12-05 14:10:36 发布

阅读量286

点赞数 1

本文链接：https://blog.csdn.net/HUNXIAOYI561/article/details/89518471

版权

机器学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

原理介绍：

（1）初始化训练数据（每个样本）的权值分布：如果有N个样本，则每一个训练的样本点最开始时都被赋予相同的权重：1/N。
（2）训练弱分类器。具体训练过程中，如果某个样本已经被准确地分类，那么在构造下一个训练集中，它的权重就被降低；相反，如果某个样本点没有被准确地分类，那么它的权重就得到提高。同时，得到弱分类器对应的话语权。然后，更新权值后的样本集被用于训练下一个分类器，整个训练过程如此迭代地进行下去。
（3）将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后，分类误差率小的弱分类器的话语权较大，其在最终的分类函数中起着较大的决定作用，而分类误差率大的弱分类器的话语权较小，其在最终的分类函数中起着较小的决定作用。换言之，误差率低的弱分类器在最终分类器中占的比例较大，反之较小。

算法流程：

（1）初始化训练数据的权值分布：给每个训练样本（x1,x2,….,xN）分配权重，初始权重w1均为1/N。

D1 = {w11，w12，....，w1i，.....，w1N}， i = 1，2，3, ..... , N 　w1i = 1/N

（2）对于要生成M个基学习器，则对于m = 1,2,.....,M:

（a）、针对带有权值的样本进行训练，得到模型Gm（初始模型为G1）：

$G_{m}(x) : \chi \rightarrow\{-1,+1\}$

( b )、计算Gm(x)在训练数据集上的分类误差率：

$e_{m}=P\left(G_{m}(x) \neq y\right)=\sum_{i=1}^{N} w_{m i} I\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)$

上式还可以写为：

$e_{m}=P\left(G_{m}(x) \neq y\right)=\sum_{G_{m}\left(x_{i}\right) \neq y_{i}} w_{m i}$

#这里，Wmi表示第m轮中第i个实例的权值，Wm1+Wm1+......+Wmn = 1，这表明，Gm（x）在加权的训练数据集上的分类误差率是被Gm（x）误分类样本的权值之和，由此可以看出数据权值分布Dm与基本分类器Gm(x)的分类误差率的关系

(c)、计算基学习器Gm(x)的系数:+

$\alpha_{m}=\frac{1}{2} \log \frac{1-e_{m}}{e_{m}}$ #这里的对数是自然对数

（d)、更新训练数据集的权重分布： $D_{m+1}=\left\{w_{m+1,1}, \ldots, w_{m+1, i}, \ldots, w_{m+1, N}\right\}$

$w_{m+1, j}=\frac{w_{m i}}{Z_{m}} \exp \left(-\alpha_{m} y_{i} G_{m}(x)\right)=\left\{\begin{array}{l}{\frac{w_{m i}}{Z_{m}} \exp \left(-\alpha_{m}\right), G_{m}\left(x_{i}\right)=y_{i}} \\ {\frac{w_{m i}}{Z_{m}} \exp \left(\alpha_{m}\right), G_{m}\left(x_{i}\right) \neq y_{i}}\end{array}\right.$

其中Zm为：

$Z_{m}=\sum_{i=1}^{N} \alpha_{m} \exp \left(-\alpha_{m} y_{i} G_{m}(x)\right)$

（3）构建基本分类器的线性组合：

$f(x)=\sum_{m=1}^{M} \alpha_{m} G_{m}(x)$

得到最终的分类器：

$G(x)=\operatorname{sign}(f(x))=\operatorname{sign}\left(\sum_{m=1}^{M} \alpha_{m} G_{m}(x)\right)$

再见鲁鲁修

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Adaboost

原理介绍：（1）初始化训练数据（每个样本）的权值分布：如果有N个样本，则每一个训练的样本点最开始时都被赋予相同的权重：1/N。（2）训练弱分类器。具体训练过程中，如果某个样本已经被准确地分类，那么在构造下一个训练集中，它的权重就被降低；相反，如果某个样本点没有被准确地分类，那么它的权重就得到提高。同时，得到弱分类器对应的话语权。然后，更新权值后的样本集被用于训练下一个分类器，整个训练过程如...
复制链接

扫一扫

专栏目录