统计学习方法-Adaboost训练误差有界定理

最新推荐文章于 2021-04-07 14:39:19 发布

庐州小白

最新推荐文章于 2021-04-07 14:39:19 发布

阅读量855

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42194781/article/details/96388662

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

定理（AdaBoost的训练误差界）： AdaBoost算法最终分类器的训练误差界为：
$\begin{aligned} \frac{1}{N}\sum_{i=1}^N \mathtt{I} (G(x_i) \neq y_i) \leq \frac{1}{N}\sum_{i=1}^N\mathtt{exp}(-y_i f(x_i))=\prod_{m}Z_m \end{aligned}$
这里的 $G(x),f(x),Z_m$ ，在统计学习方法的中定义。

Proof:

这其中： $G(x)=f(x)=\sum_{m}\alpha_m G_m(x)$ ，都表示由AdaBoost方法得到的最终分类器。 $Z_m=\sum_{i=1}^N w_{mi} \mathtt{exp}(-\alpha_m y_i G_m(x_i))$ ，表示第 $m + 1$ 个弱分类器的数值分布的归一化因子。这其中： $w_{mi}= \frac{w_{m-1i}}{Z_{m-1}} \mathtt{exp}(-\alpha_{m-1} y_i G_{m-1}(x_i))$ 表示第 $m$ 分类器的数据分布中第 $i$ 个数值的分布值； $\alpha_m = \frac{1}{2}\mathtt{log}\frac{1-e_m}{e_m}$ ，表示第 $m$ 个弱分类器的系数，其中 $e_m = \sum_{i=1}^N \mathbb{P}(G_m(x_i) \neq y_i)=\sum_{i=1}^N w_{mi} \mathtt{I}(G_m(x_i) \neq y_i)$ 表示分类错误率。

此时，我们看上面的定理，他是用所有的归一化因子来作为分类误差的上界。

首先：

$G(x_i) \neq y(x_i) \to y(x_i)f(x_i) < 0 \to \mathtt{exp}(y(x_i)f(x_i)) < 1 \to \mathtt{exp}(-y(x_i)f(x_i)) > 1 \geq \mathtt{I}(G(x_i) \ne f(x_i)$ .

那么就可以得到：

$\frac{1}{N}\sum_{i=1}^N \mathtt{I} (G(x_i) \neq y_i) \leq \frac{1}{N}\sum_{i=1}^N\mathtt{exp}(-y_i f(x_i))$ 。

下面证明定理右边的等式成立：
$\begin{aligned} \frac{1}{N}\sum_{i=1}^N\mathtt{exp}(-y_i f(x_i)) &=\frac{1}{N}\sum_{i=1}^N \mathtt{exp}(-y_i \sum_{m=1}^M \alpha_m G_m(x_i)) \\ & = \frac{1}{N}\sum_{i=1}^N\mathtt{exp}(\sum_{m=1}^M y_i \alpha_m G_m(x_i)) \\ & = \frac{1}{N}\sum_{i=1}^N \prod_{m=1}^M \mathtt{exp}(y_i \alpha_m G_m(x_i)) \end{aligned}$
由上述式子，可知 $w_{m+1i}Z_m = w_{mi} \mathtt{exp}(-\alpha_m y_i G_m(x_i))$ ，并且在Adaboost中 $\sum_i w_{mi}=1$ 。则有：
$\begin{aligned} \frac{1}{N}\sum_{i=1}^N\mathtt{exp}(-y_i f(x_i)) & = \frac{1}{N}\sum_{i=1}^N w_{1i} \prod_{m=1}^M \mathtt{exp}(y_i \alpha_m G_m(x_i))\\ & = Z_1 \frac{1}{N}\sum_{i=1}^N w_{2i} \prod_{m=2}^M \mathtt{exp}(y_i \alpha_m G_m(x_i))\\ & = \cdots\\ & = \frac{1}{N}Z_1Z_2\cdots Z_M\sum_{i=1}^m 1\\ & = \frac{1}{N}Z_1Z_2\cdots Z_MN\\ & = \prod_{m=1}^MZ_m \end{aligned}$
综上，定理得证。

庐州小白

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
统计学习方法-Adaboost训练误差有界定理

定理（AdaBoost的训练误差界）： AdaBoost算法最终分类器的训练误差界为：1N∑i=1NI(G(xi)≠yi)≤1N∑i=1Nexp(−yif(xi))=∏mZm\begin{aligned}\frac{1}{N}\sum_{i=1}^N \mathtt{I} (G(x_i) \neq y_i) \leq \frac{1}{N}\sum_{i=1}^N\mathtt{exp}(-...
复制链接

扫一扫