《推荐系统笔记（三）》Adaboost算法 —— 弱分类器组合成强分类器的方法

最新推荐文章于 2023-08-02 00:24:31 发布

wangxinRS

最新推荐文章于 2023-08-02 00:24:31 发布

阅读量2.2k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_30841655/article/details/106960199

版权

机器学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

前言

我们将介绍将弱分类器组合成强分类器的算法，Adaboost算法，以及该算法有效的证明。

对于这种提升方法，我们有

每次迭代加大误分类点的权重，这样下次生成的弱分类器能够更可能将该误分类点分类正确
每次迭代生成弱分类器的权重，对于误分类率低的弱分类器，我们在最终结果中给予更高的权重

1. 算法

输入：数据集 $T=\{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}$ ，其中， $x_i\in\mathbb{R}^n, y_i\in\{-1, +1\}$ ；弱分类器学习方法
输出：强分类器 $G (x)$

（1）初始数据权重 $w_{1}=\{w_{1, 1}, w_{1, 2}, ..., w_{1, N}\}$ ，这里 $w_{1, i}=\frac{1}{N}$ ；
（2）对于 $m = 1, 2, . . ., M$ ，第 $m$ 次数据权重为 $w_m=\{w_{m, 1}, w_{m, 2}, ..., w_{m, N}\}$ ，则

误分类率 $e_m=\sum_{i=1}^Nw_{m, i}I(y_i\not=G_m(x_i))$
根据弱学习算法（比如最小化误分类率），确定弱分类器 $G_m(x)$
计算正确分类几率 $\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$
更新第 $m + 1$ 次数据权重 $w_{m+1, i}=\frac{w_{m, i}e^{-\alpha_my_iG_m(x_i)}}{Z_m}$ 其中， $Z_m=\sum_{i=1}^Nw_{m, i}e^{-\alpha_my_iG_m(x_i)}$

（3）弱分类器的线性组合为
$f(x)=\sum_{m=1}^M\alpha_mG_m(x)$ 则强学习器为 $G (x) = s i g n (f (x))$

2. 算法有效的数学证明

通过对一系列弱分类器进行线性组合，我们可以得到强分类器，这是很神奇的。

下面，我们就对这个结果从数学上进行证明，说明弱分类器的组合可以很好的拟合数据，成为强分类器。

2.1 训练误差有上界

训练误差为 $\frac{1}{N}\sum_{i=1}^NI(y_i\not=G(x_i))$ 。我们说明这个训练误差有上界。

首先，我们有
$\begin{array}{lll} &&\frac{1}{N}\sum_{i=1}^NI(y_i\not=G(x_i))\\ &=&\frac{1}{N}\sum_{i=1}^NI(y_i\not=sign(f(x_i)))\\ &=&\frac{1}{N}\sum_{i=1}^NI(-y_if(x_i)\ge0)\\ &\le&\frac{1}{N}\sum_{i=1}^Ne^{-y_if(x_i)} \end{array}$

其次，我们证明 $\frac{1}{N}\sum_{i=1}^Ne^{-y_if(x_i)}=\Pi_{m=1}^MZ_m$ 。具体的，我们有
$\begin{array}{lll} &&\frac{1}{N}\sum_{i=1}^Ne^{-y_if(x_i)}\\ &=&\frac{1}{N}\sum_{i=1}^Ne^{-\sum_{m=1}^M\alpha_my_iG_m(x_i)}\\ &=&\frac{1}{N}\sum_{i=1}^N\Pi_{m=1}^Me^{-\alpha_my_iG_m(x_i)}\\ &=&\sum_{i=1}^N\frac{1}{N}\Pi_{m=1}^Me^{-\alpha_my_iG_m(x_i)}\\ &=&\sum_{i=1}^Nw_{1, i}\Pi_{m=1}^Me^{-\alpha_my_iG_m(x_i)}\\ &=&\sum_{i=1}^Nw_{1, i}e^{-\alpha_1y_iG_1(x_i)}\Pi_{m=2}^Me^{-\alpha_my_iG_m(x_i)}\\ &=&\sum_{i=1}^NZ_1w_{2, i}\Pi_{m=2}^Me^{-\alpha_my_iG_m(x_i)}\\ &=&Z_1\sum_{i=1}^Nw_{2, i}\Pi_{m=2}^Me^{-\alpha_my_iG_m(x_i)}\\ &=&...\\ &=&Z_1Z_2...Z_{M-1}\sum_{i=1}^Nw_{M,i}e^{-\alpha_My_iG_M(x_i)}\\ &=&Z_1Z_2...Z_{M-1}Z_M\\ &=&\Pi_{m=1}^MZ_m \end{array}$

最后，我们得到，训练误差有上界，即
$\frac{1}{N}\sum_{i=1}^NI(y_i\not=G(x_i))\le\Pi_{m=1}^MZ_m$

2.2 重写训练误差上界

训练误差的上界 $\Pi_{m=1}^MZ_m$ 看起来并不直观，因此，我们需要重新写出一个上界。

考虑到 $y_i$ 与 $G_m(x_i)$ 的值域为 ${-1, +1\}$ ，且如果 $y_iG_m(x_i)=-1$ ，则分类器 $G_m(x_i)$ 分类错误；如果 $y_iG_m(x_i)=1$ ，则分类器 $G_m(x_i)$ 分类正确。

对于 $Z_m$ ，我们有
$\begin{array}{lll} Z_m&=&\sum_{i=1}^Nw_{m, i}e^{-\alpha_my_iG_m(x_i)}\\ &=&\sum_{i=1}^Nw_{m, i}e^{-\alpha_m}I(y_i=G_m(x_i))+\sum_{i=1}^Nw_{m, i}e^{\alpha_m}I(y_i\not=G_m(x_i))\\ &=&e^{-\alpha_m}\sum_{i=1}^Nw_{m, i}I(y_i=G_m(x_i))+e^{\alpha_m}\sum_{i=1}^Nw_{m, i}I(y_i\not=G_m(x_i))\\ &=&e^{-\alpha_m}(1-e_m)+e^{\alpha_m}e_m\\ &=&e^{-\frac{1}{2}log\frac{1-e_m}{e_m}}(1-e_m)+e^{\frac{1}{2}log\frac{1-e_m}{e_m}}e_m\\ &=& 2\sqrt{e_m(1-e_m)} \end{array}$

对于表达式 $2\sqrt{e_m(1-e_m)}$ ，我们有 $2\sqrt{e_m(1-e_m)}\le 1$ ，且等号严格在 $e_m=\frac{1}{2}$ 处取得。实际上，对于每次迭代后的弱分类器，它的分类效果应该略强于随机猜测的效果，也就是错误分类率 $e_m<\frac{1}{2}$ 。因此， $2\sqrt{e_m(1-e_m)}<1$ ，也就意味着 $Z_m<1$ 。