机器学习笔记补充——提升(boosting)_boosting提升的概念-CSDN博客

本文链接：https://blog.csdn.net/weixin_41424926/article/details/100832445

提升Boosting

1. 提升简介
2. AdaBoost算法
3.提升树

本文内容主体是基于李航老师的《统计学习方法》第二版中提升方法章节的内容，有兴趣的同学可以自行参考书籍资料。其中个人觉得不是很直观的部分进行了适当的解释，解释仅属于个人理解，若觉得解释更加难以理解的同学可以自行忽略。代码部分有时间再补充。若文中有编辑错误，烦请指正，谢谢。

1. 提升简介

强可学习(strongly learnable)：一个概念，如果存在一个学习算法能够学习它，并且正确率很高，则称为是强可学习的；
弱可学习(weakly learnable)：一个概念，如果存在一个学习算法能够学习它，但是正确率仅比瞎猜好一些，则称为是弱可学习的。
Schapire学者后来证明了，强可学习和弱可学习是等价的，也就是说，一个概念是弱可学习的，那它必然是强可学习的；反之亦然。
这样，对于一个问题来说，如果发现了该问题的弱可学习属性，或者说能够设计出一个效果较差的模型来学习它，那么一定存在一个模型可以对该问题进行很好的学习。所以，人们就开始思考，能否根据较弱的模型进行“提升”，升级为较强的学习模型呢？因为往往要找到一个弱模型是更加容易的。上述升级的过程，就成为“提升方法”。
大多数的提升方法都是改变训练数据的概率分布(即训练数据的权值分布)，针对不同的训练数据分布调用弱学习算法学习一系列弱分类器，然后再将所有弱分类器组合起来成为强分类器的思路。因此，提升问题主要关注点有两个：

每一轮如何改变训练数据的权值或概率分布？
如何将弱分类器组合成一个强分类器？

2. AdaBoost算法

2.1 算法思路及步骤

AdaBoost是针对二分类问题的算法。
算法思路：针对上述两个关注点，AdaBoost采用提高分类错误样本的权值，降低分类正确样本的权值来改变数据的概率分布；最后，通过所有弱分类器进行加权多数表决的方式来得到最终结果，其中误差率大的分类器，其投票权值就较低。
算法步骤：

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i\in X\in \real^n,y_i\in\{-1,+1\}$ ；加上一种针对问题的弱学习算法；
输出：一种强学习算法的分类器 $G (x)$ ；

初始化训练数据的权值分布
$D_1=(w_{11},...,w_{1i},...,w_{1N}),w_{1i}=\frac{1}{N},i=1,2,...,N$
对m=1,2,…,M，进行以下操作：(M表示最终组合的弱分类器个数，可以对不断进化的分类器设定一个终止条件，最终达到条件后的弱分类器个数就是M，也可以提前设定M的数值，但这样可能结果就不可控了)
1). 使用具有权值分布 $D_m$ 的训练数据学习，得到基本分类器。
$G_m(x):X\rightarrow\{-1,+1\}$
2). 计算 $G_m(x)$ 在训练数据上的分类误差率(即分类错误率，即错误样本的权值之和)
$e_m=\sum_{i=1}^N P(G_m(x_i)≠y_i)=\sum_{i=1}^N w_{mi}I(G_m(x_i)≠y_i)$
3). 计算第m个弱分类器 $G_m(x)$ 的投票权值系数：
$\alpha_m=\frac{1}{2}\ln \frac{1-e_m}{e_m}$
可以从系数公式看出，错误率越高，则系数越小，所占投票比例也就越小。另外，因为提升要求弱分类器对于分类效果要比瞎猜好一些，所以可以确定，在二分类问题中， $e_m≤\frac{1}{2} \rightarrow \alpha_m≥0$ 。
4).更新训练数据集的权值分布
$D_{m+1}=(w_{m+1,1},...,w_{m+1,i},...,w_{m+1,N})$
$即w_{m+1,i}=\frac{w_{mi}}{Z_m}e^{-\alpha_my_iG_m(x_i)}=\begin{cases} \frac{w_{mi}}{Z_m}e^{-\alpha_m}，G_m(x_i)=y_i\\ \frac{w_{mi}}{Z_m}e^{\alpha_m}，G_m(x_i)≠y_i \end{cases},i=1,2,...,N$
这里， $Z_m$ 是归一化因子，将更新后的权值进行归一化，即 $Z_m=\sum_{i=1}^Nw_{mi}e^{-\alpha_my_iG_m(x_i)}$ 。由上可知，正确分类的样本权值缩小了 $e^{-\alpha_m}$ ，错误分类的样本权值增大了 $e^{\alpha_m}$ 倍，相当于错误分类的权值相对于正确分类的权值增大了 $e^{2\alpha_m}$ 倍。
构建基本分类器的线性组合，得到最终分类器 $G (x)$ ：
$f(x)=\sum_{m=1}^M\alpha_mG_m(x)，G(x)=sign(f(x))$
$f (x)$ 的符号决定实例x的分类，绝对值表示分类的确信度。

2.2 AdaBoost算法的训练误差分析

AdaBoost的训练误差界定理：AdaBoost算法最终分类器的训练误差界为
$\frac{1}{N}\sum_{i=1}^N I(G(x_i)≠y_i)≤\frac{1}{N}\sum_i e^{-y_if(x_i)}=\prod_m Z_m$
证明：
前半部分不等式，由于当 $G(x_i)≠y_i$ 时， $y_if(x_i)≥0→e^{-y_if(x_i)}≥1$ ，所以显然成立。
后半部分有：
$∵w_{m+1,i}=\frac{w_{mi}}{Z_m}e^{-\alpha_my_iG_m(x_i)}\Rightarrow Z_mw_{m+1,i}=w_{mi}e^{-\alpha_my_iG_m(x_i)}$
$∴\frac{1}{N}\sum_i e^{-y_if(x_i)}=\frac{1}{N}\sum_i \exp(-\sum_{m=1}^My_i\alpha_mG_m(x_i))$
$又∵w_{1i}=\frac{1}{N}\Rightarrow上式=\sum_i w_{1i}\prod_{m=1}^M\exp(-y_i\alpha_mG_m(x_i))$
$=\sum_i Z_1\frac{w_{1i}}{Z_1}\exp(\alpha_1y_iG_1(x_i))\prod_{m=2}^M\exp(-y_i\alpha_mG_m(x_i))=Z_1\sum_i w_{2i}\prod_{m=2}^M\exp(-y_i\alpha_mG_m(x_i))$
$=...=Z_1Z_2...Z_{M-1}\sum_i w_{Mi}\exp(-\alpha_My_iG_M(x_i))=\prod_{m=1}^M Z_m，证毕$
上述定理说明，可以在每一轮选取适当的 $G_m$ 使得 $Z_m$ 最小，从而使训练误差下降最快。

二分类问题AdaBoost的训练误差界
$\prod_{m=1}^M Z_m=\prod_{m=1}^M[\sum_{i=1}^Nw_{mi}e^{-\alpha_my_iG_m(x_i)}]=\prod_{m=1}^M[\sum_{y_i=G_m(x_i)}^Nw_{mi}e^{-\alpha_m}+\sum_{y_i≠G_m(x_i)}^Nw_{mi}e^{\alpha_m}]$
$=\prod_{m=1}^M[(1-e_m)e^{-\alpha_m}+e_me^{\alpha_m}]=\prod_{m=1}^M 2\sqrt{e_m(1-e_m)}=\prod_{m=1}^M \sqrt{1-4\gamma_m^2}，其中\gamma_m=\frac{1}{2}-e_m$
$∴\prod_{m=1}^M Z_m=\prod_{m=1}^M \sqrt{1-4\gamma_m^2}≤\exp(-2\sum_{m=1}^M \gamma_m^2)$
其中，上式的右半部分不等式是因为：
$-4\gamma_m^2\in(-1,0)，构造x=-4\gamma_m^2，f(x)=e^x-x,f'(x)=e^x-1，∴x\in(-1,0)时，f(x)单调递减$
$∴f(x)≥f(0)=1\Rightarrow e^{-4\gamma_m^2}+4\gamma_m^2≥1\Rightarrow e^{-2\gamma_m^2}≥\sqrt{1-4\gamma_m^2}\Rightarrow \prod_{m=1}^M \sqrt{1-4\gamma_m^2}≤\exp(-2\sum_{m=1}^M \gamma_m^2)$

但是其实，AdaBoost算法的使用并不需要知道下界 $\gamma$ ，因为其具有自适应能力，所以才叫Ada(Adaptive)

2.3 AdaBoost算法的推导

AdaBoost算法可以看做是模型为加法模型、损失函数是指数函数、学习算法为前向分布算法时的二分类学习方法。
前向分步算法
考虑加法模型 $f(x)=\sum_{m=1}^M \beta_mb(x;\gamma_m)$ ，其中 $b(x;\gamma_m)$ 是基函数， $\gamma_m$ 是基函数的参数， $\beta_m$ 是基函数的系数。对于损失函数极小化的优化问题：
$\min\limits_{\beta_m,\gamma_m}\sum_{i=1}^N L(y_i,\sum_{m=1}^M\beta_mb(x_i;\gamma_m))，分步后简化为\min\limits_{\beta_m,\gamma_m}\sum_{i=1}^N L(y_i,\beta_mb(x_i;\gamma_m))$
上述优化问题是非常复杂的。前向分步算法解决上述问题的方式是，因为学习是的加法模型，如果从前向后，每步只学习一个基函数及其系数，逐步逼近优化目标，那么就可以简化问题的求解。
前向分步算法步骤：

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i\in X\in \real^n,y_i\in\{-1,+1\}$ ；损失函数 $L (y, f (x))$ ；基函数集 $\{b(x;\gamma)\}$ ；
输出：加法模型 $f (x)$ ；

初始化 $f_0(x)=0$ ；
对m=1,2,…,M，进行如下操作：
a. 极小化损失函数
$(\beta_m,\gamma_m)=\arg\min\limits_{\beta,\gamma}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma))$
得到参数 $\beta_m,\gamma_m$
b. 更新加法模型：
$f_m(x)=f_{m-1}(x)+\beta_mb(x;\gamma_m)$
得到最终的加法模型 $f(x)=f_M(x)=\sum_{m=1}^M \beta_mb(x;\gamma_m)$ 。

用前向分步算法推导AdaBoost算法
AdaBoost算法是前向分步算法的特例，其中，加法模型是由基本分类器(弱分类器)组成的加法模型，损失函数是指数函数。
证明：
加法模型是由基本分类器(弱分类器)组成的加法模型，这一句话是很直观的，无需证明。主要要证明损失函数是指数函数 $L(y,f(x))=\exp(-yf(x))$ 。
假设，已经完成m-1次前向分步算法的迭代，得到 $f_{m-1}(x)=\alpha_1G_1(x)+...+\alpha_{m-1}G_{m-1}(x)$ ，其中， $\alpha$ 相当于前向分步算法中的 $\beta$ 。
那么，在第m轮中，希望得到 $\alpha_m,G_m(x)$ 使得 $f_m(x)=f_{m-1}(x)+\alpha_mG_m(x)$ 在训练数据集T上的指数损失最小，即
$(\alpha_m,G_m(x))=\arg\min\limits_{\alpha_m,G_m}\sum_{i=1}^N \exp[-y_i(f_{m-1}(x_i)+\alpha_m G_m(x_i))]=\arg\min\limits_{\alpha_m,G_m}\sum_{i=1}^N \bar{w}_{mi}\exp[-y_i\alpha_m G_m(x_i)]$
其中， $\bar{w}_{mi}=\exp[-y_if_{m-1}(x_i)]$ 。因为 $\bar{w}_{mi}$ 既不依赖 $\alpha$ 也不依赖G，所以与最小化无关。下面证明让上式达到最小的优化问题得到的 $\alpha_m^*,G_m^*(x)$ 就是AdaBoost算法得到的 $\alpha_m,G_m(x)$ 。
首先求解 $G_m^*(x)$ ，观察上式可知，只要 $\alpha_m>0$ ，那么，想要让目标函数取最小值，则 $G_m(x)$ 分类正确的数量要越多越好，这样才能使 $-y_i\alpha_m G_m(x_i)<0$ 。另外，在 $G_m(x)$ 错误分类的样本中，样本对应的权值应该越小越好，这表示分类器分类错的样本并不是很重要的样本，所以写成数学表达式为：
$G_m^*(x)=\arg\min\limits_{G_m}\sum_{i=1}^N\bar{w}_{mi}I(y_i≠G(x_i))$
这时，分类器 $G_m^*(x)$ 就是AdaBoost算法中的基本分类器 $G_m(x)$ ，因为是使第m轮加权训练数据分类误差率最小的基本分类器。(补充说明一下，这里的 $G_m(x)$ 在AdaBoost算法中是用弱学习模型根据带权值的样本数据学习得到的，即AdaBoost算法步骤中的2-1).，即使是弱学习模型，对数据进行训练得到最终的分类器，也肯定是针对当前样本集能得到最优的误差率，只是因为它是弱学习模型，所以最优的误差率也不是非常理想罢了。所以，上述推导中的 $G_m^*(x)$ 要求的也是当前带权样本集误差率最小的分类器，所以两者是等价的)
之后，由于 $\alpha^*_m$ 不影响 $G_m^*(x)$ 的最优解，所以 $G_m^*(x)$ 当做已知。求 $\alpha^*_m$ 。
$∵\sum_{i=1}^N \bar{w}_{mi}\exp[-y_i\alpha_m G_m(x_i)]=\sum_{y_i=G_m(x_i)} \bar{w}_{mi}e^{-\alpha_m}+\sum_{y_i≠G_m(x_i)} \bar{w}_{mi}e^{\alpha_m}=(e^{\alpha_m}-e^{-\alpha_m})\sum_{i=1}^N \bar{w}_{mi}I(y_i≠G(x_i))+e^{-\alpha_m}\sum_{i=1}^N \bar{w}_{mi}$
$上式对\alpha_m求导取0后得:(e^{\alpha_m}+e^{-\alpha_m})\sum_{i=1}^N \bar{w}_{mi}I(y_i≠G(x_i))-e^{-\alpha_m}\sum_{i=1}^N \bar{w}_{mi}=0$
$∴(e^{\alpha_m}+e^{-\alpha_m})\sum_{i=1}^N \bar{w}_{mi}I(y_i≠G(x_i))=e^{-\alpha_m}\sum_{i=1}^N \bar{w}_{mi},又∵e_m=\sum_{i=1}^N \bar{w}_{mi}I(y_i≠G(x_i)),\sum_{i=1}^N \bar{w}_{mi}=1$
$∴(e^{\alpha_m}+e^{-\alpha_m})e_m=e^{-\alpha_m}\Rightarrow (e^{2\alpha_m}+1)e_m=1\Rightarrow \alpha_m^*=\frac{1}{2}\ln\frac{1-e_m}{e_m}$
上述推导中的 $e_m$ 和AdaBoost算法中的 $e_m$ 是一模一样的，但是在倒数第二行增加了一个条件，就是 $\sum_{i=1}^N \bar{w}_{mi}=1$ ，所以，在AdaBoost算法中，每次更新权值后，都要用归一化因子 $Z_m$ 将权值归一化，才能满足上述条件，推导才能成立。由于AdaBoost算法最开始的权值分布是 $w_{1i}=\frac{1}{N}$ ，初始化的权值即满足条件，而后续每次迭代都将权值进行归一化了，所以在上述推导中的 $\bar{w}_{mi}$ 其实和AdaBoost算法中的 $w_{mi}$ 是等价的。

3.提升树

以决策树(通常是CART)为基函数的提升方法称为提升树。同CART，提升树也可以分为分类提升树和回归提升树。
首先确定初始提升树 $f_0(x)=0$ ，第m步的模型是 $f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$ ，其中 $f_{m-1}(x)$ 是当前模型。然后经过经验风险极小化确定下一棵决策树的参数 $\Theta_m$ ：
$\hat{\Theta}_m=\arg\min\limits_{\Theta_m}\sum_{i=1}^N L(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m))$

3.1 二分类提升树

由于二分类问题，只需要将AdaBoost算法的基本分类器限制为二分类决策树即可，可以说，此时的提升树是AdaBoost算法的特例。此时模型的损失函数仍然是指数函数。

3.2 回归提升树

根据回归决策树模型可知，此时的基本分类器可以将输入空间划分为J个互不相交的区域 $R_1,R_2,...,R_J$ ，并且可以在每个区域确定对应的输出常量 $c_j$ ，此时基本分类器可以表示为：
$T(x;\Theta)=\sum_{j=1}^J c_jI(x\in R_j)$
回归提升树算法步骤的前半部和上文一样，唯一的区别是采用的损失函数不是指数函数，而是平方误差损失函数(也可用其他更一般的损失函数)。此时有：
$L(y_i,f_{m-1}(x_i)+T(x_i;\Theta_m))=[y-f_{m-1}(x)-T(x;\Theta_m)]^2=[r-T(x;\Theta_m)]^2$
其中 $r=y-f_{m-1}(x)$ ，是当前模型拟合数据的残差。所以，对于回归问题的提升树算法来说，只需简单地拟合当前模型的残差即可。
回归提升树算法的具体步骤：

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i\in X\subseteq \real^n,y_i\in\Gamma\subseteq R$ ；
输出：提升树 $f_M(x)$

初始化$f_0(x)=0；
对m=1,2,…,M，进行以下操作：
a. 计算残差 $r_{mi}=y_i-f_{m-1}(x_i),i=1,2,...,N$
b. 拟合残差 $r_{mi}$ 学习一个回归树，得到 $T(x;\Theta_m)$
c. 更新 $f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$
得到回归问题提升树： $f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

3.3 梯度提升回归树(GDBT,Gradient Descent Boosting Tree)

对于平方差损失或指数函数损失，提升树模型的过程都是比较简单的。但是如果损失函数转变为更一般的函数，那很可能每一步的优化就不会那么容易。因此Freidman提出了梯度提升算法，利用最速下降法的近似方法，其关键是利用损失函数的负梯度在当前模型的值
$-\bigg[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}\bigg]_{f(x)=f_{m-1}(x)}$
作为回归问题提升树算法中的残差近似值，拟合回归树。
梯度提升树算法的步骤：

训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i\in X\subseteq \real^n,y_i\in\Gamma\subseteq R$ ；损失函数 $L (y, f (x))$ ；
输出：回归树 $\hat{f}(x)$

初始化： $f_0(x)=\arg\min\limits_c \sum_{i=1}^NL(y_i,c)$ ，即初始化为一个让损失函数最小的常数；
对m=1,2,…,M，进行如下操作：
a. 对i=1,2,…,N，计算残差近似值：
$r_{mi}=-\bigg[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}\bigg]_{f(x)=f_{m-1}(x)}$
b. 对 $r_{mi}$ 拟合一个回归树，得到第m棵树的叶节点划分区域 $R_{mj},j=1,2,...,J$
c. 对 $j = 1, 2, . . ., J$ ，计算每个区域对应的输出常数：
$c_{mj}=\arg\min\limits_c \sum_{x_i\in R_{mj}} L(y_i,f_{m-1}(x_i)+c)$
d. 更新 $f_m(x)=f_{m-1}(x)+\sum_{j=1}^J c_{mj}I(x\in R_{mj})$
得到最终的GDBT： $\hat{f}(x)=f_M(x)=\sum_{m=1}^M\sum_{j=1}^J c_{mj}I(x\in R_{mj})$