AdaBoost原理说明

最新推荐文章于 2023-05-07 16:05:26 发布

Jeff-Chow000

最新推荐文章于 2023-05-07 16:05:26 发布

阅读量198

点赞数

文章标签： 1024程序员节机器学习

本文链接：https://blog.csdn.net/u014611178/article/details/109258373

版权

本文详细介绍了AdaBoost算法，包括其基本思想、推导过程、算法流程和误差分析。AdaBoost通过迭代学习弱分类器，并组合成强分类器，减少训练误差。在每轮迭代中，错误分类的样本权重增加，以便后续弱分类器更加关注。最终，通过加权多数表决将弱分类器组合，形成最终的分类器。误差分析表明，AdaBoost的训练误差随迭代次数增加而指数级下降。

摘要由CSDN通过智能技术生成

AdaBoost原理说明

文章目录

AdaBoost原理说明

提升方法（Boosting）的基本思想

提升方法的思想是：对于一个复杂任务来说，多个专家的综合判断要好于其中任何一个专家的单独判断。

从算法角度来说，就是从弱学习器出发，反复学习，得到一系列弱分类器，然后组合这些弱分类器，构成一个强分类器。

弱学习器：分类正确率略高于随机猜测（0.5）的学习器；

弱学习器：分类正确率很高的学习器。

这个定义参照的是统计学习方法，查看了一些参考资料，都没有说具体多高才算强学习器。

对于提升方法，有两个关键问题需要回答：

在每一轮如何改变训练样本的权重？
如何将弱分类器组合成一个强分类器？

提升方法最具代表性的方法是AdaBoost，它的解决方式是：

AdaBoost的样本权重更新

提高那些被前一轮弱分类器错误分类样本的权值，降低那些被正确分类样本的权值。这样，那些没有得到正确分类的数据由于其权值的加大而受到后一轮的弱分类器的更大关注。
AdaBoost的弱分类器组合

采取加权多数表决的方法，具体就是，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，时期在表决中起较小的作用。

AdaBoost的推导

很多书上一开始就告诉你AdaBoost的整个算法流程，然后再解释里面的关键步骤，我觉得这不符合初学者的认知过程，所以这里我想要从统计学习方法里说的前向分步算法的解释来一步步引导。

假设现在我们有一个二分类的训练数据集：
$\text{T}=\{ (\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),\cdots,(\mathbf{x}_N,y_N)\}$
其中，每个样本点由特征与标签组成，特征 $\mathbf{x}_i$ 是n维向量，标签 $y_i \in \{-1,+1\}$ 。

假如最终的组合模型是
$f_M(\mathbf{x}) = \sum_{m=1}^M \alpha_m \phi_m(\mathbf{x})$
$\phi_m(\mathbf{x})$ 和 $\alpha_m$ 分别是AdaBoost的第 $m$ 个基分类器及其权值。

损失函数采用指数损失
$\exp \left( -yf(x) \right)$

为什么选取指数损失函数？

简单来说，最小化指数损失函数和最小化0-1损失函数是等价的，但是指数损失函数有很好的解析性质，方便求导。

组合模型最终的损失函数是
$\min \sum_{i=1}^N L\left(y_i, f_M(\mathbf{x}) \right) \\ \Rightarrow \quad\min_{\boldsymbol{\alpha},\boldsymbol{\phi}} \sum_{i=1}^N L\left(y_i, \sum_{m=1}^M \alpha_m \phi_m(\mathbf{x}_i) \right)$
目的是寻找使 $L$ 最小的 $\boldsymbol{\alpha}^* = (\alpha_1^*, \alpha_2^*, \cdots ,\alpha_M^*), \boldsymbol{\phi}^* = (\phi_1^*, \phi_2^*, \cdots ,\phi_M^*)$ 。

这个优化问题的参数非常多，几乎不可能一次求解得到，怎么办呢？

一个想法是采用分步计算的方法：因为 $f_M(\mathbf{x}) = \sum_{m=1}^M \alpha_m \phi_m(\mathbf{x})$ 是加法模型，那么我们每次只学习一个基分类器及其系数，然后叠加到之前的模型中，从而逐步逼近优化目标函数。

这个思路就是前向分步算法，具体可参照统计学习方法第8章8.3.1节前向分步算法。

现在问题就变成了第 $m$ 次迭代求解最优的基学习器 $\phi_m$ 和参数 $\alpha_m$ ：
$(\alpha_m, \phi_m) = \min_{\alpha, \phi} \sum_{i=1}^N L\left(y_i, f_{m-1}(\mathbf{x}_i) + \alpha \phi (\mathbf{x}_i) \right)$
把 $\exp\left( -yf(x)\right)$ 代入，变为
$\begin{aligned} (\alpha_m, \phi_m) &= \min_{\alpha, \phi} \sum_{i=1}^N \exp \left[ -y_i \left( f_{m-1}(\mathbf{x}_i) + \alpha \phi (\mathbf{x}_i) \right) \right] \\ &= \min_{\alpha, \phi} \sum_{i=1}^N w_{m,i} \exp \left[ - \alpha y_i \phi (\mathbf{x}_i) \right] \end{aligned}$
其中， $w_{m,i} = \exp \left[ -y_i f_{m-1} (\mathbf{x}_i) \right]$ ，其实它就是样本权重。

对于回归问题，损失函数是L2损失： $L(y,f(x)) = (y-f(x))^2$ ，所以问题变为：

$\begin{aligned} \phi_m &= \min_{\phi} \sum_{i=1}^N \left[ y_i - \left( f_{m-1}(\mathbf{x}_i) + \phi (\mathbf{x}_i) \right) \right]^2 \\ &= \min_{\phi} \sum_{i=1}^N \left( y_i - f_{m-1}(\mathbf{x}_i) - \phi (\mathbf{x}_i) \right)^2 \\ &= \min_{\phi} \sum_{i=1}^N \left[ \left( y_i - f_{m-1}(\mathbf{x}_i)\right) - \phi (\mathbf{x}_i) \right] ^2 \\ &= \min_{\phi} \sum_{i=1}^N \left( r_i - \phi (\mathbf{x}_i) \right) ^2 \end{aligned}$

其中， $r_i = y_i - f_{m-1}(\mathbf{x}_i)$ ，也就是残差

求解上式分两步：

先求基学习器 $\phi_m$

对任意 $\alpha \gt 0$ ，求最小的 $\phi_m$ 由下式得到：
$\phi_m = \arg \min_\phi \sum_{i=1}^N w_{m,i} I(y_i \ne \phi(\mathbf{x}_i))$
以上的最小值问题相当于求使错分样本权值和最小的 $\phi_m$ 。

原来求指数损失最小为什么变成求 $\min_\phi \sum_{i=1}^N w_{m,i} I(y_i \ne \phi(\mathbf{x}_i))$ ？

周志华的机器学习第8章集成学习里面有推导，这个细节先不深究。

但在实际操作中，我们并不知道什么样的基分类器是最好的，一般都是人工选择（决策树，logistic回归等），训练选定的基分类器，达到错分率最小就行。
再求权值 $\alpha_m$

知道了基分类器 $\phi_m$ ，问题变成
$\alpha_m = \min_{\alpha} \sum_{i=1}^N w_{m,i} \exp \left[ - \alpha y_i \phi_m (\mathbf{x}_i) \right]$
通常做法肯定是对 $g(\alpha) = \sum_{i=1}^N w_{m,i} \exp \left[ - \alpha y_i \phi_m (\mathbf{x}_i) \right]$ 求导并使导数为0，我们先试试看。
$\frac{\partial g}{\partial \alpha} = - \sum_{i=1}^N w_{m,i} y_i \phi_m (\mathbf{x}_i) \exp \left[ - \alpha y_i \phi_m (\mathbf{x}_i) \right] = 0$
不好求解，因为 $\alpha$ 和 $y_i \phi_m (\mathbf{x}_i)$ 一块作为自然常数e的指数，在累加 $\sum_{i=1}^N$ 的情况下没法单独提取。

那么现在的问题是如何把 $\alpha$ 单独提取出来，或者说有没有办法把 $y_i \phi_m (\mathbf{x}_i)$ 给消去。

我们知道 $y_i \phi_m (\mathbf{x}_i)$ 有以下的两种情况：
$y_i \phi_m (\mathbf{x}_i) = \left\{ \begin{aligned} 1,& \quad y_i = \phi_m (\mathbf{x}_i) \\ -1,& \quad y_i \ne \phi_m (\mathbf{x}_i) \end{aligned} \right.$
只要分成以上两种情况讨论， $y_i \phi_m (\mathbf{x}_i)$ 就可以变成常数。把上式代入 $g(\alpha)$ 有

$\begin{aligned} g(\alpha) =& \sum_{i=1}^N w_{m,i} \exp \left[ - \alpha y_i \phi_m (\mathbf{x}_i) \right] \\ =& \sum_{y_i = \phi_m(\mathbf{x}_i)} w_{m,i} e^{-\alpha} + \sum_{y_i \ne \phi_m(\mathbf{x}_i)} w_{m,i} e^{\alpha} \\ =& e^{-\alpha} \sum_{y_i = \phi_m(\mathbf{x}_i)} w_{m,i} + e^{\alpha} \sum_{y_i \ne \phi_m(\mathbf{x}_i)} w_{m,i} \end{aligned}$
这样， $\alpha$ 就可以单独提取出来了，接着对 $g(\alpha)$ 求导并使导数为0，就能得到：
$\alpha_m = \frac12 \ln \frac{\sum_{y_i = \phi_m(\mathbf{x}_i)} w_{m,i}}{\sum_{y_i \ne \phi_m(\mathbf{x}_i)} w_{m,i}}$
$\alpha_m$ 可以进一步化简，看下式
$\begin{aligned} \alpha_m =& \frac12 \ln \frac{\sum_{i=1}^N w_{m,i} - \sum_{y_i \ne \phi_m(\mathbf{x}_i)} w_{m,i}}{\sum_{y_i \ne \phi_m(\mathbf{x}_i)} w_{m,i}} \\ =& \frac12 \ln \frac{\sum_{i=1}^N w_{m,i} - \sum_{i=1}^N w_{m,i} I(y_i \ne \phi_m (\mathbf{x}_i))}{\sum_{i=1}^N w_{m,i}I(y_i \ne \phi_m (\mathbf{x}_i))} \\ =& \frac12 \ln \left( \frac{1 - \frac{\sum_{i = 1}^N w_{m,i} I(y_i \ne \phi_m (\mathbf{x}_i))}{\sum_{i = 1}^N w_{m,i}}}{\frac{\sum_{i = 1}^N w_{m,i} I(y_i \ne \phi_m (\mathbf{x}_i))}{\sum_{i = 1}^N w_{m,i}}} \right) \\ =& \frac12 \ln \left( \frac{1 - e_m}{e_m} \right) \end{aligned}$
其中
$e_m = \frac{\sum_{i = 1}^N w_{m,i} I(y_i \ne \phi_m(\mathbf{x}_i))}{\sum_{i = 1}^N w_{m,i}}$
$e_m$ 是分类模型 $\phi_m$ 的错误率，而 $I (x)$ 是指示函数，即 $\left\{ \begin{aligned} 1,& \quad 满足x \\0,& \quad 不满足x \end{aligned} \right.$ 。

最后来看每一轮样本权值的更新。由
$f_m(\mathbf{x}) = f_{m-1}(\mathbf{x}) + \alpha_m \phi_m(\mathbf{x})$
以及 $w_{m,i} = \exp \left[ -y_i f_{m-1} (\mathbf{x}_i) \right]$ ，可得
$w_{m+1,i} = w_{m,i} \exp[- \alpha_m y_i \phi_m(\mathbf{x}_i)]$
这就是样本权重的更新公式，不过，在统计学习方法里样本权重是有做归一化操作的：
$w_{m+1,i} = \frac{w_{m,i}}{Z_m} \exp[- \alpha_m y_i \phi_m(\mathbf{x}_i)]$
其中
$Z_m = \sum_{i=1}^N w_{m,i} \exp[- \alpha_m y_i \phi_m(\mathbf{x}_i)]$
其实，做不做归一化并不影响每轮得到的模型 $\phi$ 和权值 $\alpha$ ，但将样本权重之和控制为1，有利于我们查看样本重要性的变化，所以还是采用归一化的方式。

为什么做不做归一化操作不影响每轮的结果？

首先看哪些地方要用到 $w_{m,i}$ ，主要是两个地方：

求解模型 $\phi_m$

这是没有归一化的情况：
$\phi_m = \arg \min_\phi \sum_{i=1}^N w_{m,i} I(y_i \ne \phi(\mathbf{x}_i))$
这是有归一化的情况：
$\phi_m = \arg \min_\phi \frac{1}{Z_m} \sum_{i=1}^N w_{m,i} I(y_i \ne \phi(\mathbf{x}_i))$
相当于多了个常数 $\frac{1}{Z_m}$ ，对求解上式的最小值问题没有影响。

计算错误率 $e_m$

从计算公式
$e_m = \frac{\sum_{i = 1}^N w_{m,i} I(y_i \ne \phi_m(\mathbf{x}_i))}{\sum_{i = 1}^N w_{m,i}}$
可以看出来， $e_m$ 本身就做了归一化操作，所以 $w_{m,i}$ 做没做归一化， $e_m$ 都是一样的。

综上， $w_{m,i}$ 做不做归一化操作并不影响每轮的最终结果。

AdaBoost的算法流程

AdaBoost训练算法就是求解上述优化问题的过程，结合之前的讲解，给出如下的AdaBoost算法流程：

输入：训练数据集 $\text{T}=\{ (\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),\cdots,(\mathbf{x}_N,y_N)\}$ ，其中特征 $\mathbf{x}_i$ 是n维向量，标签 $y_i \in \{-1,+1\}$ 。

输出：最终分类器 $G(\mathbf{x})$ 。

(1) 初始化训练数据的权重
$D_1=(w_{11}, w_{12}, \cdots, w_{1N}) = (\frac{1}{N}, \frac{1}{N}, \cdots, \frac{1}{N})$

这里也可以理解为：令 $f_0(\mathbf{x}) = 0$ ，根据 $w_{m,i} = \exp \left[ -y_i f_{m-1} (\mathbf{x}_i) \right]$ ，并加上归一化操作而得到的。

(2) 对 $m=1,2,\cdots,M$

(a) 使用具有权重 $D_m$ 的训练数据集学习，得到错分率最小的基本分类器 $\phi_m(\mathbf{x})$ ；

(b) 计算 $\phi_m(\mathbf{x})$ 在训练数据集上的误分率
$e_m = \sum \limits_{i=1}^N w_{m,i} I(y_i \ne \phi_m(\mathbf{x}_i))$

因为样本权重更新公式已经做了归一化，所以 $e_m$ 就没有必要再做一次了。

© 计算 $\phi_m(\mathbf{x})$ 的权值
$\alpha_m = \frac{1}{2} \log \frac{1-e_m}{e_m}$
更新训练数据集的权重
$D_{m+1} = (w_{m+1,1},w_{m+1,2},\cdots,w_{m+1,N})$

$w_{m+1,i} = \frac{w_{m,i}}{Z_m} \exp \left( -\alpha_m y_i \phi_m(\mathbf{x}_i) \right), \quad i=1,2,\cdots,N$

$Z_m$ 是归一化因子
$Z_m = \sum \limits_{i=1}^{N} w_{m,i} \exp \left( -\alpha_m y_i \phi_m(\mathbf{x}_i) \right)$
(3) 构建基分类器的线性组合
$f_M(x) = \sum \limits_{m=1}^{M} \alpha_m \phi_m(\mathbf{x})$
得到最终组合分类器
$G(\mathbf{x}) = \text{sign} \left( f_M(\mathbf{x}) \right) = \text{sign} \left(\sum \limits_{m=1}^M \alpha_m \phi_m(\mathbf{x}) \right)$

$\text{sign}(x)$ 是符号函数：
$\text{sign}(x) = \left\{ \begin{aligned} 1,& \quad x \gt 0 \\ 0,& \quad x = 0 \\ -1,& \quad x \lt 0 \end{aligned} \right.$

在这里插入图片描述

AdaBoost的例子

该例子来源于统计学习方法第8章提升方法，有下表的训练数据，试用AdaBoost算法学习一个强分类器。

在这里插入图片描述解：初始化数据权值
$D_1 = (w_{1,1},w_{1,2},\cdots,w_{1,10}) \\ w_{1,i} = 0.1, \quad i=1,2,\cdots,10$
对 $m = 1$ ，

在权值为 $D_1$ 的训练数据上，阈值取2.5时分类误差率最低，故基本分类器为
$\phi_1 (x) = \left\{ \begin{aligned} 1,&\quad x \lt 2.5 \\ -1,&\quad x \gt 2.5 \end{aligned} \right.$
$\phi_1(x)$ 在训练数据集上的误差率 $e_1 = 0.3$

计算 $\phi_1(x)$ 的权值： $\alpha_1 = \frac12 \ln \frac{1-e_1}{e_1} = 0.4236$

更新训练数据的权值分布：
$D_2 = (w_{2,1},w_{2,2},\cdots,w_{2,10}) \\ w_{2,i} = \frac{w_{1,i}}{Z_1} \exp(-\alpha_1 y_i \phi_1(\mathbf{x}_i)), \quad i=1,2,\cdots,10 \\ D_2 = (0.0715,0.0715,0.0715,0.0715,0.0715,0.0715,0.1666,0.1666,0.1666,0.0715)$
从而
$f_1(x) = 0.4236 \phi_1(x)$
分类器 $\text{sign}\left( f_1(x) \right)$ 在训练数据集上有3个误分类点。

对 $m = 2$ ，

在权值为 $D_2$ 的训练数据上，阈值为8.5时分类误差率最低，基本分类器为
$\phi_2(x) = \left\{ \begin{aligned} 1,& \quad x \lt 8.5 \\ -1,& \quad x \gt 8.5 \end{aligned} \right.$
$\phi_2(x)$ 在训练数据集上的误差率 $e_2 = 0.2143$

计算 $\alpha_2 = 0.6496$

更新训练数据权值：
$D_3 = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.1667, 0.1060, 0.1060, 0.1060, 0.0455)$
从而
$f_2(x) = 0.4236 \phi_1(x) + 0.6496 \phi_2(x)$
分类器 $\text{sign}\left( f_2(x) \right)$ 在训练数据集上有3个误分类点。

对 $m = 3$ ，

在权值为 $D_3$ 的训练数据上，阈值为5.5时分类误差率最低，基本分类器为
$\phi_3(x) = \left\{ \begin{aligned} 1,& \quad x \gt 5.5 \\ -1,& \quad x \lt 5.5 \end{aligned} \right.$
$\phi_3(x)$ 在训练数据集上的误差率 $e_3 = 0.1820$

计算 $\alpha_2 = 0.7514$

更新训练数据权值：
$D_4 = (0.125, 0.125, 0.125, 0.102, 0.102, 0.102, 0.065, 0.065, 0.065, 0.125)$
从而
$f_3(x) = 0.4236 \phi_1(x) + 0.6496 \phi_2(x) + 0.7514 \phi_3(x)$
分类器 $\text{sign}\left( f_3(x) \right)$ 在训练数据集上误分类点个数为0。

于是最终分类器为
$\text{sign}\left( f_3(x) \right) = \text{sign}\left( 0.4236 \phi_1(x) + 0.6496 \phi_2(x) + 0.7514 \phi_3(x) \right)$

AdaBoost算法的误差分析

算法误差分析一般就是找到一个误差的上界，看这个上界跟什么有关。

AdaBoost最关心的就是这个上界是不是随迭代次数的增大而减小，减小多快。

训练误差分析

先看AdaBoost最终分类器的训练误差
$\varepsilon = \frac{1}{N} \sum \limits_{i=1}^{N} I\left( G(\mathbf{x}_i) \neq y_i \right) = \frac{1}{N} \sum \limits_{i=1}^{N} I \left( y_i G(\mathbf{x}_i) \lt 0 \right)$

$y_i$ 和 $G(\mathbf{x}_i)$ 都属于 ${-1,1\}$ ， $y_i G(\mathbf{x}_i) \lt 0$ 就表示不同号，那么肯定$ G(\mathbf{x}_i) \neq y_i$。

在这里插入图片描述
指示函数 $\left( y f(x) \lt 0 \right) = \left\{ \begin{aligned} 1,& \quad 满足 y f(x) \lt 0 \\0,& \quad 满足 y f(x) \ge 0 \end{aligned} \right.$ ，就是上图那条灰线。

指数损失函数 $\left( y, f(x) \right) = \exp \left( -yf(x) \right)$ 就是上图那条蓝线。

易知，在任何一点，指数损失函数 $\left( y, f(x) \right)$ 总不小于指示函数 $\left( y f(x) \lt 0 \right)$ ，所以
$\varepsilon = \frac{1}{N} \sum \limits_{i=1}^{N} I \left( y_i G(\mathbf{x}_i) \lt 0 \right) \le \frac{1}{N} \sum_{i=1}^N \exp \left( -y_i G(\mathbf{x}_i) \right) = \frac{1}{N} \sum_{i=1}^N \exp \left( -y_i f_M(\mathbf{x}_i) \right)$

这样就构造了训练误差 $\varepsilon$ 的一个上界——指数损失。

接着就是鼓捣这个上界，后面推导要用到样本权重更新公式
$\begin{aligned} & w_{m+1,i} = \frac{w_{m,i}}{Z_m} \exp \left( -\alpha_m y_i \phi_m(\mathbf{x}_i) \right) \\ \Rightarrow \quad & w_{m,i} \exp \left( -\alpha_m y_i \phi_m(\mathbf{x}_i) \right) = Z_m w_{m+1,i} \end{aligned}$
指数损失
$\begin{aligned} &\frac{1}{N} \sum_{i=1}^N \exp \left( -y_i f_M(\mathbf{x}_i) \right) \\ = &\frac{1}{N} \sum_{i=1}^N \exp \left( - \sum_{m=1}^M \alpha_m y_i \phi_m(\mathbf{x}_i) \right) \\ = &\sum_{i=1}^N w_{1,i} \prod_{m=1}^M \exp \left( -\alpha_m y_i \phi_m(\mathbf{x}_i) \right) \quad \quad \quad \quad \quad \quad \quad (解释：w_{1,i} = \frac1N) \\ = &\sum_{i=1}^N \left[ w_{1,i} \exp \left( -\alpha_1 y_i \phi_1 (\mathbf{x}_i) \right) \right] \prod_{m=2}^M \exp \left( -\alpha_m y_i \phi_m (\mathbf{x}_i) \right) \\ = &\sum_{i=1}^N Z_1 w_{2,i} \prod_{m=2}^M \exp \left( -\alpha_m y_i \phi_m (\mathbf{x}_i) \right) \quad \quad \quad \quad \quad \quad \quad (根据样本更新公式，下同) \\ = &Z_1 \sum_{i=1}^N \left[ w_{2,i} \exp \left( -\alpha_2 y_i \phi_2 (\mathbf{x}_i) \right) \right] \prod_{m=3}^M \exp \left( -\alpha_m y_i \phi_m (\mathbf{x}_i) \right) \\ = &Z_1 \sum_{i=1}^N Z_2 w_{3,i} \prod_{m=3}^M \exp \left( -\alpha_m y_i \phi_m (\mathbf{x}_i) \right) \\ = &Z_1 Z_2 \sum_{i=1}^N \left[ w_{3,i} \exp \left( -\alpha_3 y_i \phi_3 (\mathbf{x}_i) \right) \right] \prod_{m=4}^M \exp \left( -\alpha_m y_i \phi_m (\mathbf{x}_i) \right) \\ = & \cdots \\ = &Z_1 Z_2 \cdots Z_{M-1} \sum_{i=1}^N \left[ w_{M,i} \exp \left( -\alpha_M y_i \phi_M (\mathbf{x}_i) \right) \right] \\ = & \prod_{m=1}^M Z_m \end{aligned}$
知道指数损失等于 $\prod_{m=1}^M Z_m$ 有什么用？

先来看单个 $Z_m$ ，根据定义：
$\begin{aligned} Z_m &= \sum_{i=1}^N w_{m,i} \exp\left( - \alpha_m y_i \phi_m(\mathbf{x}_i) \right) \\ &= \sum_{y_i = \phi_m (\mathbf{x}_i)} w_{m,i} e^{-\alpha_m} + \sum_{y_i \ne \phi_m (\mathbf{x}_i)} w_{m,i} e^{\alpha_m} \\ &= e^{-\alpha_m} \sum_{i=1}^N w_{m,i} I(y_i = \phi_m(\mathbf{x}_i)) + e^{\alpha_m} \sum_{i=1}^N w_{m,i} I(y_i \ne \phi_m(\mathbf{x}_i)) \\ \end{aligned}$
根据误分率 $e_m = \sum \limits_{i=1}^N w_{m,i} I(y_i \ne \phi_m(\mathbf{x}_i))$ ，有
$\begin{aligned} Z_m &= e^{-\alpha_m} (1 - e_m) + e^{\alpha_m} e_m \end{aligned}$
再根据模型权重公式 $\alpha_m = \frac{1}{2} \log \frac{1-e_m}{e_m} = \log \sqrt{\frac{1-e_m}{e_m}}$ ，有

$\begin{aligned} Z_m &= e^{ -\alpha_m } (1 - e_m) + e^{ \alpha_m } e_m \\ &= e^{-\log \sqrt{\frac{1-e_m}{e_m}}} (1 - e_m) + e^{\log \sqrt{\frac{1-e_m}{e_m}}} e_m \\ &= \sqrt{\frac{e_m}{1 - e_m}} (1 - e_m) + \sqrt{\frac{1-e_m}{e_m}} e_m \\ &= 2 \sqrt{e_m(1 - e_m)} \end{aligned}$

如果令 $\gamma_m = \frac12 - e_m$ ，有 $e_m = \frac12 - \gamma_m$ ，代入 $Z_m$ ：
$\begin{aligned} Z_m &= 2 \sqrt{(\frac12 - \gamma_m) (\frac12 + \gamma_m)} \\ &= 2 \sqrt{\frac14 - \gamma_m^2} \\ &= \sqrt{1 - 4\gamma_m^2} \end{aligned}$
由 $e^x$ 和 $\sqrt{1-x}$ 在点 $x = 0$ 的泰勒展开式可以推出（这里的推导先放着，后续再添加）：
$\sqrt{1 - 4\gamma_m^2} \le \exp{(-2 \gamma_m^2)}$
所以
$\begin{aligned} & Z_m \le \exp{(-2 \gamma_m^2)} \\ \Rightarrow \quad & \prod_{m=1}^M Z_m \le \prod_{m=1}^M \exp{\left( -2 \gamma_m^2 \right)} \end{aligned}$
取 $\gamma = \min{\left( \gamma_1,\gamma_2,\cdots,\gamma_M \right)}$ ，由于 $\lt e_m \lt \frac12$ （弱学习器），那么 $\lt \gamma_m = \frac12 - e_m \lt \frac12$ ，所以 $\gamma \gt 0$ ，对所有 $m$ 有
$\begin{aligned} &\gamma_m \ge \gamma \\ \Rightarrow \quad & 2 \gamma_m^2 \ge 2 \gamma^2 \\ \Rightarrow \quad & - 2 \gamma_m^2 \le - 2 \gamma^2 \\ \Rightarrow \quad & \exp \left( - 2 \gamma_m^2 \right) \le \exp \left( - 2 \gamma^2 \right) \\ \Rightarrow \quad & \prod_{m=1}^M \exp \left( - 2 \gamma_m^2 \right) \le \prod_{m=1}^M \exp \left( - 2 \gamma^2 \right) \\ \Rightarrow \quad & \prod_{m=1}^M \exp \left( - 2 \gamma_m^2 \right) \le \exp \left( - 2 M\gamma^2 \right) \end{aligned}$
综上
$\begin{aligned} \varepsilon \le \prod_{m=1}^M Z_m \le \prod_{m=1}^M \exp \left( - 2 \gamma_m^2 \right) \le \exp \left( - 2 M\gamma^2 \right) \\ \end{aligned}$
最终得到的上界是 $\exp \left( - 2 M\gamma^2 \right)$ ， $M$ 是迭代次数。

这个上界结果表明，AdaBoost的训练误差随着迭代次数的增加以指数速率下降。

测试误差分析

为什么测试误差随着迭代次数的增加而减小？

从目前查到的资料来看，这个问题在学术界还有争议，只是目前间隔（Margin）理论解释还算比较靠谱（参考文章：The Boosting Margin, or Why Boosting Doesn’t Overfit）。

AdaBoost里的间隔不是指SVM的几何间隔（下图是几何间隔），而是指函数间隔。

在这里插入图片描述
函数间隔的定义（参照统计学习方法第7章支持向量机）：对于给定的训练数据集 $T$ 和超平面 $(\mathbf{w},b)$ ，定义超平面 $(\mathbf{w},b)$ 关于样本点 $(\mathbf{x}_i,y_i)$ 的函数间隔为
$\hat{\gamma}_i = y_i (\mathbf{w}^T \mathbf{x}_i + b)$
函数间隔表示分类预测的正确性及确信度， $\hat{\gamma}_i \gt 0$ 表示分类正确，此时 $\hat{\gamma}_i$ 越大样本点 $(\mathbf{x}_i,y_i)$ 分类正确的可信度越高，反之亦然。

在AdaBoost中，对二分类模型 $\phi ( \mathbf{x} )$ ，函数间隔是 $\phi(\mathbf{x})$ ，AdaBoost集成模型是 $f_M(\mathbf{x}) = \sum \limits_{m=1}^{M} \alpha_m \phi_m(\mathbf{x})$ ，集成模型的函数间隔就是 $f_M(\mathbf{x}) = \sum \limits_{m=1}^{M} \alpha_m y \phi_m(\mathbf{x})$ 。

间隔理论就是求集成模型 $f_M(\mathbf{x})$ 的错分概率 $\left( y f_M(\mathbf{x}) \le 0 \right)$ 的上界，具体可以参考周志华的书Ensemble Methods Foundations and Algorithms，书上第3章Boosting给出的结论是：错分概率的上界随着迭代次数的增大而减小。

这块是个非常难的问题，如果不是要做AdaBoost方面学术研究的学员，只要了解到这个程度就可以了。

下面提供一些链接供对这块感兴趣的学员查看：

adaboost为什么不容易过拟合呢？俞扬的回答：https://www.zhihu.com/question/41047671

CCL2014_keynote-周志华：https://wenku.baidu.com/view/8efc9b880975f46527d3e1cb.html

The Boosting Margin, or Why Boosting Doesn’t Overfit：https://jeremykun.com/2015/09/21/the-boosting-margin-or-why-boosting-doesnt-overfit/

最后推荐一本书：The Elements of Statistical Learning：http://ddl.escience.cn/ff/emZH