集成学习

最新推荐文章于 2024-04-25 18:02:29 发布

-倾城之恋-

最新推荐文章于 2024-04-25 18:02:29 发布

阅读量169

点赞数

分类专栏：机器学习统计优化

本文链接：https://blog.csdn.net/P081513083/article/details/98410478

版权

机器学习同时被 3 个专栏收录

37 篇文章 0 订阅

订阅专栏

统计

23 篇文章 0 订阅

订阅专栏

优化

12 篇文章 0 订阅

订阅专栏

集成学习方法分为两大类：

1）基于boost的方法：

基本原理就是利用一系列弱学习器组成一个强学习器。这些弱学习按顺序依次训练得到。
这个方法是首先给每个样本赋一个权值，这个权值被利用到损失函数中。然后训练第一个弱学习器，完成训练之后，根据这个弱学习器在训练集的上的表现，更新样本权值，具体来说就是预测错误的样本被赋予更大的权值，预测正确的值被赋予更小的权值，然后继续训练第二个弱学习器。这样训练N个弱学习器后，将这个N个弱学习器加权求和，作为最终的强学习器。这个N个弱学习器的权重完全根据他们自己的性能确定，性能越好权重越大。
比较典型的就是adaboost算法。此算法要点就是，样本权重如何更新，以及弱基学习器的权重如何求。实际上，adaboost算法是前向分步算法的特例，在前向分步算法的损失函数为指数损失函数时，可以推导出adaboost算法中弱基学习器的权重计算公式，以及样本权重的更新规则。

假设已经训练好了 $m - 1$ 个基分类器 ${G_{1}(x),..., G_{m-1}(x)}$ ，因为前面 $m - 1$ 个弱基分类器的权重分别为 $\{\alpha_1,...,\alpha_{m-1}\}$ ，且
$f_{m-1}=\sum\limits_{i=1}^{m-1}\alpha_iG_{i}(x)$ ,
或者 $f_{m-1}=f_{m-2}+\alpha_{m-1}G_{m-1}(x), f_0=0$ 。

指数损失函数
$L(\alpha_m,G_m(x)) \\=\sum\limits_{i=1}^Nexp(-y_if_m(x_i)) \\=\sum\limits_{i=1}^Nexp(-y_i(f_{m-1}(x_i)+\alpha_mG_m(x_i))) \\=\sum\limits_{i=1}^Nexp(-y_if_{m-1}(x_i))exp(-y_i\alpha_mG_m(x_i))$
因为 $exp(-y_if_{m-1}(x_i))$ 是常数，记为 $\overline w_{m,i}=exp(-y_if_{m-1}(x_i))$ 。
(此处可看出，在已知前m-1个分类器以及其系数的情况下，如果求 $G_m(x)$ 使得整体最优，相当于最小化 $G_m(x)$ 的加权损失函数，其未归一化权值为 $exp(-y_if_{m-1}(x_i))$ 。)
指示函数:
$\mathbb{I}(z)=\left\{ \begin{array}{rcl} 1, & z为真\\ 0, & z为假 \end{array} \right.$
$arg\min\limits_{\alpha_m} L(\alpha_m,G_m(x)) \\=arg\min\limits_{\alpha_m}\sum\limits_{i=1}^N\overline w_{m,i}exp(-y_i\alpha_mG_m(x_i)) \\=arg\min\limits_{\alpha_m}\sum\limits_{i=1}^N\overline w_{m,i}(exp(-\alpha_m)\mathbb{I}(y_i=G_m(x_i))+exp(\alpha_m)\mathbb{I}(y_i\neq G_m(x_i)) \\=arg\min\limits_{\alpha_m}\sum\limits_{i=1}^N\overline w_{m,i}(exp(-\alpha_m)(1-\mathbb{I}(y_i\neq G_m(x_i)))+exp(\alpha_m)\mathbb{I}(y_i\neq G_m(x_i))$

令 $\frac{\partial L}{\partial \alpha_m}=0$
则：
$\alpha_m=\frac{1}{2}ln\frac{\sum\limits_{i=1}^{N}\overline w_{m,i}-\sum\limits_{i=1}^{N}\overline w_{m,i}\mathbb{I}(y_i\neq G_m(x_i))}{\sum\limits_{i=1}^{N}\overline w_{m,i}\mathbb{I}(y_i\neq G_m(x_i))}$
因为adaboost算法加权错误率为：
$\epsilon_m=\frac{\sum\limits_{i=1}^{N}\overline w_{m,i}\mathbb{I}(y_i\neq G_m(x_i))}{\sum\limits_{i=1}^{N}\overline w_{m,i}}$
所以：
$\alpha_m=\frac{1}{2}ln\frac{1-\epsilon_m}{\epsilon_m}$
也就是说当前的弱基分类器的权重和且只和它的性能有关。

然后我们考虑如何更新样本权重：
$arg\min\limits_{G_m(x)} L(\alpha_m,G_m(x)) \\=arg\min\limits_{G_m(x)}\sum\limits_{i=1}^N\overline w_{m,i}exp(-y_i\alpha_mG_m(x_i)) \\=arg\min\limits_{G_m(x)}\sum\limits_{i=1}^N\overline w_{m,i}(exp(-\alpha_m)(1-\mathbb{I}(y_i\neq G_m(x_i)))+exp(\alpha_m)\mathbb{I}(y_i\neq G_m(x_i)) \\=arg\min\limits_{G_m(x)}\sum\limits_{i=1}^N\overline w_{m,i}(exp(\alpha_m)-exp(-\alpha_m))\mathbb{I}(y_i\neq G_m(x_i)) \\=arg\min\limits_{G_m(x)}\sum\limits_{i=1}^N\overline w_{m,i}\mathbb{I}(y_i\neq G_m(x_i)) \\=arg\min\limits_{G_m(x)}\frac{\sum\limits_{i=1}^N\overline w_{m,i}\mathbb{I}(y_i\neq G_m(x_i))}{\sum\limits_{i=1}^N\overline w_{m,i}} \\=arg\min\limits_{G_m(x)}\sum\limits_{i=1}^N w_{m,i}\mathbb{I}(y_i\neq G_m(x_i))$
再一次可以清晰看到，在已知前m-1个分类器以及其系数的情况下（ $\alpha_m$ 为正的未知系数，不影响结果），如果求 $G_m(x)$ 使得整体最优，等价于最小化 $G_m(x)$ 的加权损失函数，其未归一化权值为 $exp(-y_if_{m-1}(x_i))$ ，归一化权重为 $w_{m,i}$ 。

并且有效损失函数权重为：
$w_{m,i}=\frac{\overline w_{m,i}}{\sum\limits_{i=1}^N\overline w_{m,i}}$
且可以推导出权重更新公式：
因为
$\overline w_{m,i}=exp(-y_if_{m-1}(x_i))$
则
$\overline w_{m+1,i}=exp(-y_if_{m}(x_i)) \\=exp(-y_i(f_{m-1}+\alpha_mG_m(x_i))) \\=exp(-y_i(f_{m-1}))exp(-y_i\alpha_mG_m(x_i)) \\=\overline w_{m,i}exp(-y_i\alpha_mG_m(x_i)$
则新权重为：
$\overline w_{m+1,i}'=w_{m,i}exp(-y_i\alpha_mG_m(x_i))$
归一化后有效权重为：
$w_{m+1,i}=\frac{\overline w_{m+1,i}'}{\sum\limits_{i=1}^N\overline w_{m+1,i}'}$
每次基于旧的有效权重生成新的权重后，新的权重都需要归一化来成为有效权重。

2）Bagging方法

Bagging相对简单，可以并行得到多个弱基分类器，然后投票或者其他方法融合。
需要注意的是，Bagging方法中，为保证分类器的差异性，需要保证训练集的差异性。一般才有有放回采样，也就是在N个样本的数据集中有放回采样M个样本作为第一个基分类器的样本，然后同样的方法构造其它基分类器的训练集。

-倾城之恋-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成学习

集成学习方法分为两大类：1）基于boost的方法：基本原理就是利用一系列弱学习器组成一个强学习器。这些弱学习按顺序依次训练得到。这个方法是首先给每个样本赋一个权值，这个权值被利用到损失函数中。然后训练第一个弱学习器，完成训练之后，根据这个弱学习器在训练集的上的表现，更新样本权值，具体来说就是预测错误的样本被赋予更大的权值，预测正确的值被赋予更小的权值，然后继续训练第二个弱学习器。这样训练N个...
复制链接

扫一扫