（《机器学习》完整版系列）第8章集成学习——8.3 AdaBoost算法的详细推导

人工干智能

已于 2023-03-31 10:37:12 修改

阅读量177

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：算法集成学习机器学习概率论

于 2023-02-28 15:49:53 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129263153

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 29 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

文章详细介绍了AdaBoost算法的推导过程，包括利用积分和概率论的方法，以及如何通过损失函数最小化选择弱学习器。文章指出，AdaBoost通过构造分布序列逼近真实分布，并通过数学期望来度量模型性能。此外，还解释了如何通过分布的演变和权重优化来逐步构建强学习器。

摘要由CSDN通过智能技术生成

利用积分、概率论等数学工具，对AdaBoost算法进行详细推导

AdaBoost算法的详细推导

在上一篇中，显然，预测器 $H(\boldsymbol{x})$ 比分类器 $h(\boldsymbol{x})=\mathrm{sgn}(H(\boldsymbol{x}))$ 有更好的数学性质，故使用前者进行推演。
记
$\begin{align} H_t(\boldsymbol{x})=\sum_{i=1}^t{\alpha }_ih_i(\boldsymbol{x}) \tag{8.14} \end{align}$
则
$\begin{align} H_t(\boldsymbol{x})=H_{t-1}(\boldsymbol{x})+{\alpha }_th_t(\boldsymbol{x}) \tag{8.15} \end{align}$

我们常使用“均方误差”（MSE）进行性能度量，常用方法：

基于测试集进行度量，即【西瓜书式(2.2)】
基于样本空间（全体）进行度量，则是采用数学期望。当变量为连续时，即为【西瓜书式(2.3)】

然而，【西瓜书式(7.2)】表明，使用损失函数进行性能度量时，采用的是损失的数学期望（期望损失也称为风险Risk，故记为R）。在AdaBoost中，已知训练集 $D$ 但并不知道数据的分布 $\mathcal{D}$ ，为确定 $\alpha _i$ ，在讨论式(8.15)第2项的损失 ${\ell}_{\exp}({\alpha }_th_t(\boldsymbol{x})\,|\,\mathcal{D})$ 时，本来应该考虑条件 $(\mathcal{D} )$ 转而考虑条件 $(\mathcal{D}_t )$ ，即用 ${\ell}_{\exp}({\alpha }_th_t(\boldsymbol{x})\,|\,\mathcal{D}_t)$ 近似 ${\ell}_{\exp}({\alpha }_th_t(\boldsymbol{x})\,|\,\mathcal{D})$ 。也即通过构造分布序列
$\mathcal{D}_1,\mathcal{D}_2,\cdots$
去逼近真实分布 $\mathcal{D}$ 。这就是求 ${\alpha}_t$ 的情形，见【西瓜书式(8.9)】的推导过程。

【西瓜书式(8.11)】表明：因 ${\epsilon}_t=P_{\boldsymbol{x}\sim \mathcal{D}_t}(h_t(\boldsymbol{x})\neq f(\boldsymbol{x}))$ ，故 ${\alpha}_t$ 通过 ${\epsilon}_t$ 而依赖于 $h_t$ ，下面我们看看该参数的特性。

由AdaBoost算法第5行知，应选取错误率小于50%的 $h_t$ ，即 ${\alpha}_t<\frac{1}{2}$ ，代入【西瓜书式(8.11)】知 ${\alpha}_t>0$ 。
若降低误分类率（ ${\epsilon}_t\downarrow$ ），则 $\frac{1}{{\epsilon}_t }\uparrow$ ，则 $\frac{1-{\epsilon}_t}{{\epsilon}_t}=(\frac{1}{{\epsilon}_t}-1)\uparrow$ ，由【西瓜书式(8.11)】知 ${\alpha}_t\uparrow$ ，即 ${\epsilon}_t$ 越小， ${\alpha}_t$ 越大，也即： $h_t$ 越好相应的权重 ${\alpha}_t$ 越大。

预测器 $H_t$ 的损失函数:
$\begin{align} \ell (H_t(\boldsymbol{x})\,|\,\mathcal{D} )=\ell (H_{t-1}(\boldsymbol{x})+{\alpha }_th_t(\boldsymbol{x})\,|\,\mathcal{D}) \tag{8.16} \end{align}$
注意：式(8.16)中 $\mathcal{D}$ 的作用范围不只是第二项，而是全部，即 $\ell (H_{t-1}(\boldsymbol{x})+{\alpha }_th_t(\boldsymbol{x})\,|\,\mathcal{D})=\ell ([H_{t-1}(\boldsymbol{x})+{\alpha }_th_t(\boldsymbol{x})]\,|\,\mathcal{D})$ 。

希望通过最小化该损失函数来找到 $h_t$ （此时， $H_{t-1}$ 已知，而 ${\alpha }_t$ 依赖于 $h_t$ ， $h_t$ 是待定的二分类器），由于 $\ell (H_{t-1}(\boldsymbol{x})+{\alpha }_th_t(\boldsymbol{x})\,|\,\mathcal{D})$ 中的 ${\alpha }_th_t$ 不好处理，我们转而求其次，即考虑最小化 $\ell (H_{t-1}(\boldsymbol{x})+h_t(\boldsymbol{x})\,|\,\mathcal{D})$ ，这即得到【西瓜书式(8.12)】，进而推导出【西瓜书式(8.13)】。

公式推导中要用到如下数学知识：

虽然， $\min x^2 \neq \min ax^2$ ，但 $\mathop{\arg\min}\limits_x x^2 =\mathop{\arg\min}\limits_x ax^2\quad (a>0)$

即这两个函数（ $x^2$ 与 $ax^2$ ）虽然最小值不相等，但它们取得最小值的点 $x$ 相同，推广到一般情形，对函数 $g (x)$ 有
$\begin{align} \mathop{\arg\min}\limits_x ag(x)+b= \begin{cases} \, \mathop{\arg\min}\limits_x g(x)\quad (a>0) \\ \, \mathop{\arg\max}\limits_x g(x)\quad (a<0) \end{cases} \tag{8.17} \end{align}$
对于最大值情况，易类比相应的结论。

考虑
$\begin{align} \mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }[\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}(1-f(\boldsymbol{x})h(\boldsymbol{x})+\frac{1}{2})] \tag{8.18} \end{align}$

$\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }$ 将会消去变元 $\boldsymbol{x}$ （类似于求和号、积分号的消元原理），而 $f,H_{t-1}$ 是已知的，故式(8.18)中的变元为 $h$ （泛函数）。
$\begin{align} \text{式(8.18)} & =-\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}f(\boldsymbol{x})h(\boldsymbol{x})+\frac{3}{2}\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}\notag \\ & =(-1)g_1(h)+b \tag{8.19} \end{align}$
将式(8.17)应用于式(8.19)，即为【西瓜书p.176】第2个等号。

在处理类似 $\sum_i {\alpha }_ix_i$ 时，常常将系数“概率化”（使其和为1），形成加权平均数，即改为处理
$\begin{align} \sum_i {\alpha }_ix_i & =({\sum_j {\alpha }_j})\sum_i\left(\frac{ {\alpha }_i}{\sum_j {\alpha }_j}\right)x_i\notag \\ & =({\sum_i {\alpha }_i})\sum_i\left(\frac{ {\alpha }_i}{\sum_i {\alpha }_i}\right)x_i \tag{8.20} \end{align}$
依此思路，将和式改为数学期望，应用到下式，则
$\begin{align} & \qquad \mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}f(\boldsymbol{x})h(\boldsymbol{x})\notag \\ & =(\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} } \mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})})\left(\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\frac{ \mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}{(\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} } \mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})})}f(\boldsymbol{x})h(\boldsymbol{x})\right)\notag \\ & =ag_2(h)\qquad (a>0) \tag{8.21} \end{align}$
将式(8.17)应用于式(8.21)，即为【西瓜书p.176】第3个等号。

设 $\boldsymbol{x}$ 概率分布密度为 $\mathcal{D} (\boldsymbol{x})$
$\begin{align} \mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})} & =\int_{{\mathbb{R} }^n}\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}\mathcal{D} (\boldsymbol{x}) \,\mathrm{d}\boldsymbol{x} \tag{8.22a} \end{align}$
即
$\begin{align} & \int_{{\mathbb{R} }^n} \frac{\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}\mathcal{D} (\boldsymbol{x})}{\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}} \,\mathrm{d}\boldsymbol{x} \tag{8.22} \\ & \ = \frac{\int_{{\mathbb{R} }^n}\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}\mathcal{D} (\boldsymbol{x}) \,\mathrm{d}\boldsymbol{x}}{\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}\notag \\ & \ =1\qquad \text{（由式(8.22a)）}\notag \end{align}$
积分为1，符合概率分布密度定义，即式(8.22)中的被积函数可视为一个概率分布密度，记为 $\mathcal{D}_t (\boldsymbol{x})$ ，即【西瓜书式(8.15)】，这样就找到了与 $t$ 关联的概率分布密度 $\mathcal{D}_t$ ，即可形成序列。

下面寻找该序列的递推关系式。由 $\mathcal{D}_t (\boldsymbol{x})$ 的定义（式(8.22)中的被积函数），有
$\begin{align} \mathcal{D}_{t+1}(\boldsymbol{x}) =\frac{\mathcal{D} (\boldsymbol{x})\mathrm{e}^{-f(\boldsymbol{x})H_{t}(\boldsymbol{x})}}{\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t}(\boldsymbol{x})}} \tag{8.23} \end{align}$
分母为常数，分子为
$\begin{align} &\quad \mathcal{D} (\boldsymbol{x})\mathrm{e}^{-f(\boldsymbol{x})H_{t}(\boldsymbol{x})}\notag\\ & =\mathcal{D} (\boldsymbol{x})\mathrm{e}^{-f(\boldsymbol{x})[H_{t-1}(\boldsymbol{x})+{\alpha }_th_t(\boldsymbol{x})]} \quad \text{（由$H_t$的定义【西瓜书式(8.4)】）}\notag \\ & =\mathcal{D} (\boldsymbol{x})\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}\,\mathrm{e}^{-f(\boldsymbol{x}){\alpha }_th_t(\boldsymbol{x})}\notag \\ & =\mathrm{e}^{-f(\boldsymbol{x}){\alpha }_th_t(\boldsymbol{x})}\frac{\mathcal{D} (\boldsymbol{x})\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}{\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}\notag \\ & =\mathrm{e}^{-f(\boldsymbol{x}){\alpha }_th_t(\boldsymbol{x})}\mathcal{D}_t (\boldsymbol{x})\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}\quad \text{（由$\mathcal{D}_t$的定义）} \tag{8.24} \end{align}$
把式(8.24)代入式(8.23)，得
$\begin{align} D_{t+1}(\boldsymbol{x}) & =\frac{\mathrm{e}^{-f(\boldsymbol{x}){\alpha }_th_t(\boldsymbol{x})}\mathcal{D}_t (\boldsymbol{x})\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}{\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t}(\boldsymbol{x})}} \notag \\ & =\mathcal{D}_t (\boldsymbol{x})\mathrm{e}^{-f(\boldsymbol{x}){\alpha }_th_t(\boldsymbol{x})}C_t \tag{8.25} \\ \text{其中，}C_t & =\frac{\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}{\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\,\mathrm{e}^{-f(\boldsymbol{x})H_{t}(\boldsymbol{x})}} \tag{8.26} \end{align}$
由于 $\mathbb{E}$ 起了消元作用，故 $C_t$ 对 $\boldsymbol{x}$ 而言是常数，式(8.25)即为【西瓜书式(8.19)】。

由于 $D(\boldsymbol{x})$ 是未知，故式(8.26)不好直接应用，对式(8.25)两边求积分，则
$\begin{align} \int_{{\mathbb{R} }^n} D_{t+1}(\boldsymbol{x}) \,\mathrm{d}\boldsymbol{x} & =\int_{{\mathbb{R} }^n} \mathcal{D}_t (\boldsymbol{x})\mathrm{e}^{-f(\boldsymbol{x}){\alpha }_th_t(\boldsymbol{x})}C_t \,\mathrm{d}\boldsymbol{x}\notag \\ 1 & =C_t\int_{{\mathbb{R} }^n} \mathcal{D}_t (\boldsymbol{x})\mathrm{e}^{-f(\boldsymbol{x}){\alpha }_th_t(\boldsymbol{x})} \,\mathrm{d}\boldsymbol{x}\notag \\ & =C_tZ_t \tag{8.27} \\ \text{其中，}Z_t & =\int_{{\mathbb{R} }^n} \mathcal{D}_t (\boldsymbol{x})\mathrm{e}^{-f(\boldsymbol{x}){\alpha }_th_t(\boldsymbol{x})} \,\mathrm{d}\boldsymbol{x} \tag{8.28} \end{align}$

由式(8.27)，式(8.26)变为
$\begin{align} D_{t+1}(\boldsymbol{x}) =\frac{\mathcal{D}_t (\boldsymbol{x})\mathrm{e}^{-f(\boldsymbol{x}){\alpha }_th_t(\boldsymbol{x})}}{Z_t} \tag{8.29} \end{align}$
其中， $Z_t$ 为式(8.28)，在时刻 $t + 1$ ，它的表达式中没有未知项。

即找到了递推式(8.29)，用于AdaBoost算法【西瓜书图8.3】。

回到【西瓜书式(8.14)】，其的计算涉及到未知的分布 $\mathcal{D}$ ，需要作进一步的变换：
$\begin{align} & \mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} }\left[\frac{ \mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}{\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} } \mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}f(\boldsymbol{x})h(\boldsymbol{x})\right]\notag \\ & \ =\int_{{\mathbb{R} }^n} \left[\frac{ \mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}{\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} } \mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}f(\boldsymbol{x})h(\boldsymbol{x})\right] \mathcal{D} (\boldsymbol{x}) \,\mathrm{d}\boldsymbol{x}\notag \\ & \ =\int_{{\mathbb{R} }^n} \left[\frac{ \mathcal{D} (\boldsymbol{x})\mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}{\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D} } \mathrm{e}^{-f(\boldsymbol{x})H_{t-1}(\boldsymbol{x})}}\right]f(\boldsymbol{x})h(\boldsymbol{x}) \,\mathrm{d}\boldsymbol{x}\notag \\ & \ =\int_{{\mathbb{R} }^n} \mathcal{D}_{t}(\boldsymbol{x}) f(\boldsymbol{x})h(\boldsymbol{x})\,\mathrm{d}\boldsymbol{x}\qquad \text{（由$\mathcal{D}_{t}$的定义）}\notag \\ & \ =\mathop{\mathbb{E} }\limits_{\boldsymbol{x}\thicksim \mathcal{D}_t }[f(\boldsymbol{x})h(\boldsymbol{x})] \tag{8.30} \end{align}$
而这时， $\mathcal{D}_t$ 是已知的，式(8.30)代入【西瓜书式(8.14)】就得到了【西瓜书式(8.16)】。其中
$\begin{align} f(\boldsymbol{x})h(\boldsymbol{x}) & = \begin{cases} \, 1\, ,&\qquad \text{当$f(\boldsymbol{x})=h(\boldsymbol{x})$时}\notag \\ \, -1\, ,&\qquad \text{当$f(\boldsymbol{x})\neq h(\boldsymbol{x})$时}\notag \\ \end{cases} \\ & =\mathbb{I} (f(\boldsymbol{x})=h(\boldsymbol{x}))-\mathbb{I} (f(\boldsymbol{x})\neq h(\boldsymbol{x}))\qquad \text{（由式(B3)、式(B4)）}\notag \\ & = (1-\mathbb{I} (f(\boldsymbol{x})\neq h(\boldsymbol{x})))-\mathbb{I} (f(\boldsymbol{x})\neq h(\boldsymbol{x}))\notag \\ & =\text{【西瓜书式(8.17)】}\notag \end{align}$
其中，参见6、指示函数及应用（将分段函数表达成一个式子的技术）：
$\begin{align} f(\boldsymbol{x}) & =a(\boldsymbol{x})\mathbb{I}_A (\boldsymbol{x})+b(\boldsymbol{x})\mathbb{I}_{\overline{A}} (\boldsymbol{x}) \tag{B4} \end{align}$