机器学习算法系列（十九）-自适应增强算法（Adaptive Boosting Algorithm / AdaBoost Algorithm）——上篇

Saisimonzs

已于 2022-04-13 23:15:27 修改

阅读量4.8k

点赞数 5

分类专栏：机器学习算法系列文章标签：机器学习算法 AdaBoost

于 2022-03-26 10:32:44 首次发布

本文链接：https://blog.csdn.net/sai_simon/article/details/123751406

版权

机器学习算法系列专栏收录该内容

24 篇文章

订阅专栏

本文详细介绍AdaBoost算法原理及其变体，包括算法步骤、原理证明等内容，适用于机器学习初学者及进阶者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

阅读本文需要的背景知识点：集成学习、拉格朗日乘数法、一丢丢编程知识

一、引言

前面一节我们学习了随机森林算法（Random Forest Algorithm），讲到了其中一种集成学习的方法——Bagging 算法，这一节我们来学习另一种集成学习的方法——提升算法¹ （Boosting Algorithm），同时介绍其中比较常见的算法——自适应增强算法²（Adaptive Boosting Algorithm / AdaBoost Algorithm）

二、模型介绍

Boosting 算法

Boosting 算法也是一种集成学习，与 Bagging 算法不同的是，每次训练更关注训练出的估计器中分类错误或者回归误差大的样本，即每次训练都是根据上次训练的结果调整不同的样本权重，直到最后的输出小于预设的阈值。

图2-1

图 2-1 展示了提示算法的具体流程，其与 Bagging 算法的区别在于：其一，Bagging 算法的每个估计器相对独立且权重都相同，而 Boosting 算法的每个估计器都依赖于上一个估计器同时权重也不同。其二，一般情况下 Bagging 算法可以减小方差、而 Boosting 算法则是减小偏差。
Boosting 算法中比较有代表性的算法就是自适应增强算法（Adaptive Boosting Algorithm / AdaBoost Algorithm）

AdaBoost 算法

AdaBoost 算法是由 Yoav Freund 和 Robert E. Schapire 在 1995 年提出的，同时还提出了 AdaBoost.M1、AdaBoost.M2 算法用于多分类问题，AdaBoost.R 算法用于回归问题。后面陆续又有人提出了上述算法的变体 AdaBoost-SAMME、AdaBoost-SAMME.R、AdaBoost.R2 算法。
AdaBoost 算法的基本步骤与 Boosting 算法一样，是 Boosting 算法的具体实现，其定义了每次循环如何更新样本权重以及最后如何将每个估计器结合起来。
由于笔者能力所限，本文只会介绍基础的 AdaBoost 算法和现在 scikit-learn 中所实现的 AdaBoost-SAMME、AdaBoost-SAMME.R、AdaBoost.R2算法，其他的算法暂无法一一介绍，感兴趣的读者可以参考文末对应算法的论文原文。

三、算法步骤

下面先给出每个算法的执行步骤，后面再一一说明这些算法步骤中公式的来源。

二分类

假设训练集 $T = \{ X_i, y_i \}$ ， $i = 1 ， . . . ， N$ ， $y_i \in \{-1，+1\}$ ，h(x) 为估计器，估计器的数量为 K。

AdaBoost 算法步骤如下：

初始化样本权重向量 $ω_1$
$\begin{aligned} \omega_{1,i} &= \frac{1}{N} \quad i = 1,...,N \end{aligned}$

遍历估计器的数量 K 次：
在样本权重 $ω_k$ 下训练估计器 h(x)
计算第k次的误差率 $e_k$
$\begin{aligned} e_k &= \sum_{i = 1}^{N}\omega_{k,i} I(y_i \ne h_k(X_i)) \end{aligned}$

如果误差率 $e_k$ 大于 0.5
中断循环
计算第k次的估计器权重 $α_k$
$\begin{aligned} \alpha_k &= \frac{1}{2} \ln \frac{1 - e_k}{e_k}\\ \end{aligned}$

计算第 k + 1 次的权重向量 $ω_{k+1}$
$\begin{aligned} \omega_{k+1,i} &= \frac{\omega_{k,i} e^{-y_i\alpha_kh_k(X_i)}}{\sum_{j = 0}^N \left(\omega_{k,j} e^{-y_j\alpha_kh_k(X_j)}\right) } \end{aligned}$

结束循环

最后的结合策略，采用加权后的结果取 sign 函数，得到最终的强估计器：
$\begin{aligned} H(x) &= \operatorname{sign} \left(\sum_{i = 1}^{K} \alpha_i h_i(x)\right) \end{aligned}$

多分类

假设训练集 $T = \{ X_i, y_i \}$ ， $i = 1 ， . . . ， N$ ，y 的取值有 M 种可能，h(x) 为估计器，估计器的数量为 K。

AdaBoost-SUMME 算法步骤如下：

初始化样本权重向量 $ω_1$
$\begin{aligned} \omega_{1,i} &= \frac{1}{N} \quad i = 1,...,N \end{aligned}$

计算第 k 次的估计器权重 $α_k$
$\begin{aligned} \alpha_k &= \ln \frac{1 - e_k}{e_k} + \ln (M - 1) \\ \end{aligned}$

计算第 k + 1 次的权重向量 $ω_{k+1}$
$\begin{aligned} \bar{\omega_{k+1,i}} &= \omega_{k,i}e^{\alpha_kI(y_i \ne h_k(X_i))} \end{aligned}$

对权重向量 $ω_{k+1}$ 进行归一化
$\begin{aligned} \omega_{k+1,i} &= \frac{\bar{\omega_{k + 1,i}}}{\sum_{j = 1}^N \bar{\omega_{k + 1,i}} } \end{aligned}$

结束循环

最后的结合策略，采用正确分类的结果加权后取值最大的分类，得到最终的强估计器：
$\begin{aligned} H(x) &= \underset{m}{\operatorname{argmax}} \left( \sum_{i = 1}^{K} \alpha_i I(h_i(x) = m) \right) \end{aligned}$

AdaBoost-SUMME.R 算法步骤如下：

初始化样本权重向量 $ω_1$
$\begin{aligned} \omega_{1,i} &= \frac{1}{N} \quad i = 1,...,N \end{aligned}$

遍历估计器的数量 K 次：
在样本权重 $ω_k$ 下计算加权类概率估计向量 $P_k$
$\begin{aligned} p_k^m(x) = P(y = m \mid x) \end{aligned}$

计算第 k + 1 次的权重向量 $ω_{k+1}$
$\hat{y} = \left\{ \begin{array}{c} 1 & y =m\\ -\frac{1}{M-1} & y \ne m \end{array}\right. \quad m = 1,\dots,M$

$\begin{aligned} \bar{\omega_{k+1,i}} &= \omega_{k,i}e^{-\frac{M-1}{M} \hat{y_i}^T \ln p_k(x) } \end{aligned}$

对权重向量 $ω_{k+1}$ 进行归一化
$\begin{aligned} \omega_{k+1,i} &= \frac{\bar{\omega_{k + 1,i}}}{\sum_{j = 1}^N \bar{\omega_{k + 1,i}} } \end{aligned}$

结束循环

最后的结合策略，采用概率估计计算结果取值最大的分类，得到最终的强估计器：
$\begin{aligned} h_k(x) &= (M - 1) \left( \ln p_k^m(x) - \frac{1}{M} \sum_{i = 1}^{M} \ln p_k^i(x) \right) \\ H(x) &= \underset{m}{\operatorname{argmax}} \left( \sum_{i = 1}^{K} h_i(x)\right) \end{aligned}$

回归

假设训练集 $T = \{ X_i, y_i \}$ ， $i = 1 ， . . . ， N$ ，h(x) 为估计器，估计器的数量为 K

AdaBoost.R2 算法步骤如下：

初始化样本权重向量 $ω_1$
$\begin{aligned} \omega_{1,i} &= \frac{1}{N} \quad i = 1,...,N \end{aligned}$

遍历估计器的数量 K 次：
在样本权重 $ω_k$ 下训练估计器 h(x)
计算最大误差 $E_k$
$\begin{aligned} E_k &= \max \mid y_i - h_k(X_i) \mid \end{aligned}$

计算第 k 次的误差率 $e_k$
$\begin{aligned} e_{k,i} &= \frac{\mid y_i - h_k(X_i) \mid}{E_k} & 线性误差 \\ e_{k,i} &= \frac{\left( y_i - h_k(X_i) \right)^2}{E_k^2} & 平方误差 \\ e_{k,i} &= 1 - e^{-\frac{\mid y_i - h_k(X_i) \mid}{E_k} } & 指数误差 \\ e_k & = \sum_{i = 1}^{N}\omega_{k,i} e_{k,i} \end{aligned}$

如果误差率 $e_k$ 大于 0.5
中断循环
计算第 k 次的估计器权重 $α_k$
$\begin{aligned} \alpha_k &= \frac{e_k}{1 - e_k} \end{aligned}$

计算第 k + 1 次的权重向量 $ω_{k+1}$
$\begin{aligned} \bar{\omega_{k+1,i}} &= \omega_{k,i}\alpha_k^{1 - e_{k,i}} \end{aligned}$

对权重向量 $ω_{k+1}$ 进行归一化
$\begin{aligned} \omega_{k+1,i} &= \frac{\bar{\omega_{k + 1,i}}}{\sum_{j = 1}^N \bar{\omega_{k + 1,i}} } \end{aligned}$

结束循环

最后的结合策略，采用估计器权重的中位数对应的估计器的结果，得到最终的强估计器：
$\begin{aligned} H(x) &= \inf \left\{ y \in A: \sum_{h_i(x) \le y } \ln \left(\frac{1}{\alpha_i}\right) \ge \frac{1}{2} \sum_{i = 1}^{K} \ln \left(\frac{1}{\alpha_i}\right) \right\} \end{aligned}$

四、原理证明

AdaBoost 算法推导

同算法步骤中的前提条件一样，假设训练集 $T = \{ X_i, y_i \}$ ， $i = 1 ， . . . ， N$ ， $y_i \in \{-1，+1\}$ ，h(x) 为估计器，估计器的数量为 K。

AdaBoost 算法的一种解释是加法模型，通过多个估计器 h(x) 加权以后得到最后的强估计器 H(x)，如下所示：
（1）第 k - 1 轮的强估计器表达式
（2）第 k 轮的强估计器表达式
（3）第 k 轮的强估计器可以由第 k - 1 轮的强估计器和第 k 轮的加权估计器来表示
$\begin{aligned} H_{k-1}(x) &= \sum_{i = 1}^{k-1} \alpha_i h_i(x) & (1) \\ H_k(x) &= \sum_{i = 1}^{k} \alpha_i h_i(x) & (2) \\ H_k(x) &= H_{k-1}(x) + \alpha_k h_k(x) & (3) \\ \end{aligned}$

式4-1

接下来我们来定义最后强估计器的代价函数，AdaBoost 算法选用的是指数函数，相比于0 / 1 函数具有更好的数学性质。
（1）指数代价函数
（2）带入式 4-1中的（3）式
（3）我们的目标就是找到最优的估计器权重 α 和估计器 h(x)
（4）定义一个新的变量 ω，包含前一轮的强估计器等与 α 、h(x)无关的值
（5）替换 ω
$\begin{aligned} Cost(H(x)) &= \sum_{i = 1}^{N} e^{-y_iH(X_i)} & (1) \\ Cost(\alpha, h(x)) &= \sum_{i = 1}^{N} e^{-y_i(H_{k-1}(X_i) + \alpha h(X_i))} & (2) \\ \alpha_k, h_k(x) &= \underset{\alpha, h(x)}{\operatorname{argmin} } \sum_{i = 1}^{N} e^{-y_i(H_{k-1}(X_i) + \alpha h(X_i))} & (3) \\ \bar{\omega_{k,i}} &= e^{-y_iH_{k-1}(X_i)} & (4) \\ \alpha_k, h_k(x) &= \underset{\alpha, h(x)}{\operatorname{argmin} } \sum_{i = 1}^{N} \bar{\omega_{k,i}} e^{-y_i\alpha h(X_i)} & (5) \\ \end{aligned}$

式4-2

我们先来看下估计器 h(x)，在每次训练估计器后，估计器已经确定下来了，所以我们现在只需要关心每个估计器的权重 α 即可。
（1）找到最优的估计器权重 α 使得代价函数的取值最小
（2）代价函数 $C o s t (α)$
（3）由于标签值可取正负 1，根据预测值与标签值是否相同拆为两项
（4）增加第二、三两项，不影响最后的结果
（5）将（4）式中前两项和后两项分别合并得到
$\begin{aligned} \alpha_k &= \underset{\alpha}{\operatorname{argmin} } \sum_{i = 1}^{N} \bar{\omega_{k,i}} e^{-y_i\alpha h_k(X_i)} & (1) \\ Cost(\alpha) &= \sum_{i = 1}^{N} \bar{\omega_{k,i}} e^{-y_i\alpha h_k(X_i)} & (2) \\ &= \sum_{y_i = h_k(X_i)}^{N} \bar{\omega_{k,i}} e^{-\alpha} + \sum_{y_i \ne h_k(X_i)}^{N} \bar{\omega_{k,i}} e^{\alpha} & (3) \\ &= \sum_{y_i = h_k(X_i)}^{N} \bar{\omega_{k,i}} e^{-\alpha} + \sum_{y_i \ne h_k(X_i)}^{N} \bar{\omega_{k,i}} e^{-\alpha} - \sum_{y_i \ne h_k(X_i)}^{N} \bar{\omega_{k,i}} e^{-\alpha} + \sum_{y_i \ne h_k(X_i)}^{N} \bar{\omega_{k,i}} e^{\alpha} & (4) \\ &= e^{-\alpha} \sum_{i = 1}^{N} \bar{\omega_{k,i}} + (e^{\alpha} - e^{-\alpha}) \sum_{i = 1}^{N} \bar{\omega_{k,i}} I(y_i \ne h_k(X_i)) & (5) \\ \end{aligned}$

式4-3

（1）对代价函数求导数并令其为零
（2）定义错误率 $e_k$ 的表达式
（3）将错误率 $e_k$ 带入（2）式
（4）两边同时乘以 $e^{α}$
（5）移项后整理得
（6）求得最后的估计器权重 α 的表达式
$\begin{aligned} \frac{\partial Cost(\alpha )}{\partial \alpha } &= -e^{-\alpha} \sum_{i = 1}^{N} \bar{\omega_{k,i}} + (e^{\alpha} + e^{-\alpha}) \sum_{i = 1}^{N} \bar{\omega_{k,i}} I(y_i \ne h_k(X_i)) = 0& (1) \\ e_k &= \frac{\sum_{i = 1}^{N}\bar{\omega_{k,i}} I(y_i \ne h_k(X_i))}{\sum_{i = 1}^{N}\bar{\omega_{k,i}}} & (2) \\ 0 &= -e^{-\alpha} + (e^\alpha + e^{-\alpha}) e_k & (3) \\ 0 &= -1 + (e^{2\alpha } + 1)e_k & (4) \\ e^{2\alpha } &= \frac{1 - e_k}{e_k} & (5) \\ \alpha &= \frac{1}{2} \ln \frac{1 - e_k}{e_k} & (6) \\ \end{aligned}$

式4-4

（1）错误率 $e_k$ 的定义
（2）定义 $ω_k$
（3）得到错误率 $e_k$ 的表达式
$\begin{aligned} e_k &= \frac{\sum_{i = 1}^{N}\bar{\omega_{k,i}} I(y_i \ne h_k(X_i))}{\sum_{i = 1}^{N}\bar{\omega_{k,i}}} & (1) \\ \omega_{k,i} &= \frac{\bar{\omega_{k,i}}}{\sum_{i = 1}^{N}\bar{\omega_{k,i}}} & (2) \\ e_k &= \sum_{i = 1}^{N}\omega_{k,i} I(y_i \ne h_k(X_i)) & (3) \\ \end{aligned}$

式4-5

接下来是 ω 的更新方法：
（1） $ω_{k+1}$ 的定义
（2）带入式 4-1中的（3）式
（3）替换为 $ω_k$
$\begin{aligned} \bar{\omega_{k+1,i}} &= e^{-y_iH_{k}(X_i)} & (1) \\ &= e^{-y_i(H_{k-1}(X_i) + \alpha_kh_k(X_i))} & (2) \\ &= \bar{\omega_{k,i}}e^{-y_i\alpha_kh_k(X_i)} & (3) \end{aligned}$

式4-6

（1）式 4-6中的（3）
（2）两边同时除以归一化参数
（3）分子按照式 4-5中（2）式的定义替换，分母用式 4-7中（1）式替换
（4）分母再按照式 4-5中（2）式的定义替换
（5）由于 ω 的和为一个常数 C
（6）分子分母的常数 C 可以消除，得到 ω 的更新方表达式
$\begin{aligned} \bar{\omega_{k+1,i}} &= \bar{\omega_{k,i}}e^{-y_i\alpha_kh_k(X_i)} & (1) \\ \omega_{k+1,i} &= \frac{ \bar{\omega_{k,i}}e^{-y_i\alpha_kh_k(X_i)} }{\sum_{j = 0}^N \bar{\omega_{k+1,j}}} & (2) \\ &= \frac{\omega_{k,i} \sum_{j = 0}^N \left(\bar{\omega_{k,j}}\right) e^{-y_i\alpha_kh_k(X_i)} }{\sum_{j = 0}^N \left(\bar{\omega_{k,j}} e^{-y_j\alpha_kh_k(X_j)} \right) } & (3) \\ &= \frac{\omega_{k,i} \sum_{j = 0}^N \left(\bar{\omega_{k,j}}\right) e^{-y_i\alpha_kh_k(X_i)}}{\sum_{j = 0}^N \left(\omega_{k,j} \left(\sum_{l = 0}^N \bar{\omega_{k,l}}\right) e^{-y_j\alpha_kh_k(X_j)}\right) } & (4) \\ &= \frac{\omega_{k,i} C e^{-y_i\alpha_kh_k(X_i)}}{\sum_{j = 0}^N \left(\omega_{k,j} C e^{-y_j\alpha_kh_k(X_j)}\right) } & (5) \\ &= \frac{\omega_{k,i} e^{-y_i\alpha_kh_k(X_i)}}{\sum_{j = 0}^N \left(\omega_{k,j} e^{-y_j\alpha_kh_k(X_j)}\right) } & (6) \\ \end{aligned}$

式4-7

综合式 4-1～式 4-7 可以得到 AdaBoost 算法的表达式：
$\begin{aligned} e_k &= \sum_{i = 1}^{N}\omega_{k,i} I(y_i \ne h_k(X_i)) & (1) \\ \alpha_k &= \frac{1}{2} \ln \frac{1 - e_k}{e_k} & (2) \\ \omega_{k+1,i} &= \frac{\omega_{k,i} e^{-y_i\alpha_kh_k(X_i)}}{\sum_{j = 0}^N \left(\omega_{k,j} e^{-y_j\alpha_kh_k(X_j)}\right) } & (3) \\ H(x) &= \operatorname{sign} \left(\sum_{i = 1}^{K} \alpha_i h_i(x)\right) & (4) \\ \end{aligned}$