[机器学习] - 树模型 - 提升算法(AdaBoost, 残差树, XgBoost)

最適当承诺

已于 2022-08-21 18:15:38 修改

阅读量414

点赞数

分类专栏：机器学习文章标签：机器学习算法人工智能

于 2022-08-21 18:13:44 首次发布

本文链接：https://blog.csdn.net/upr_rom/article/details/126442047

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文深入解析了AdaBoost分类算法原理，介绍了如何通过调整权重和弱学习器组合形成强学习器。同时，对比了提升树（如AdaBoost）与残差树（如GBDT）在处理回归问题上的应用。详细讲解了XGBoost的优化策略，包括损失函数和正则化。

摘要由CSDN通过智能技术生成

提升算法是在弱学习器基础上，根据弱学习器的错误情况，改变接下来的训练样本的重要性权重（分错的权重上升，分对的权重下降），然后使用修改权重后的训练样本生成新的 “个体学习器”，然后再次改变权重，生成新的“个体学习器”。最后将生成的个体学习器结合在一起，生成最终的集成模型。
对于提升算法，有两个问题是核心：1. 如何改变训练样本的权重 2. 如何将生成的弱学习器合在一起，形成强学习器。（按照怎样的权重）

AdaBoost

AdaBoost很好的实现了以上两个问题。

分类问题算法

具体算法：
对于二分类的训练数据集 $(x_1,y_1), (x_2,y_2),\dots, (x_N,y_N) }$ ，其中 $x_1 \in R^n,y_i \in \{-1,1 \}$ ，最终输出集成分类器 $G (x)$ ，每个分类器是 $G_m(x)$ 。

初始化训练数据的权值分布：
$D_1=(w_{1,1},w_{1,2},\dots,w_{1,N}), w_{1,i}=\frac{1}{N}, i= 1,2,\dots,N$
对于 $m=1,2,\dots,M$
使用具有权重分布 $D_m$ 的训练数据集进行学习，得到第m个基本分类器：
$G_m(x):X \rightarrow \{-1,+1\}$
注意：根据权重计算时主要体现在信息增益，增益率，基尼系数计算。
计算 $G_m(x)$ 在训练数据集上的分类错误率:
$e_m=P( G_m(x_i) \neq y_i )=\sum_{i=1}^N w_{m,i} I( G_m(x_i) \neq y_i )$
计算 $G_m(x)$ 的系数：
$\alpha_m=\frac{1}{2}log \frac{1-e_m}{e_m}$
当错误率大于50%，系数为负数；错误率低于50%，系数为正数。此处对数为自然对数。
根据系数 $\alpha$ 更新训练集的权重：
$\alpha_m = \frac{1}{2} log \frac{1-e_m}{e_m}$
系数越大，表示训练准确度越高，数据的权重就会分的越开。
然后，我们根据 $w_{m+1,i}=\frac{w_{m,i}}{Z_m}e^{-\alpha_m y_i G_m(x_i)}$ 更新权重。
最终我们就可以构建出基本分类器的线性组合 $f(x)=\sum_{m=1}^M \alpha_m G_m(x)$
最终的分类器 $s i g n (f (x))$

AdaBoost 原理分析

我们可以认为 AdaBoost 是加法模型，损失函数为指数函数，学习算法是前向分步算法的分类算法。
$f(x)=\sum_{i=1}^M \alpha_m b(x;\gamma_m)$
$b(x;\gamma_m)$ 表示基函数， $\gamma_m$ 表示基函数的参数； $\alpha_m$ 表示基函数的系数。
因此，我们成为了学习：
$min_{\alpha_m;\gamma_m} \sum_{i=1}^N L(y_i, \sum_{m=1}^M \alpha_m b(x; \gamma_m) )$
对于前向学习算法，因为我们学习的是加法模型，所以我们从前到后 $m=1,\dots,M$ ，每一步都只学习一个基函数和系数，逐渐逼近目标函数，从而减少问题的复杂度。我们每步只需要优化以下损失函数：
$min_{\alpha,\gamma} \sum_{i=1}^N L(y_i, \alpha b(x_i;\gamma))$
具体来说，就是每次都极小化损失：
$(\alpha_m,\gamma_m)=arg \ min_{\alpha,\gamma} \sum_{i=1}^N L(y_i, f_{m-1}(x_i)+\alpha b(x_i;\gamma))$

$(\alpha_m,\gamma_m)=arg \ min_{\alpha,\gamma} \sum_{i=1}^N e^{- y_i f_{m-1}(x_i)} e^{-y_i \alpha b(x_i)}=arg \ min_{\alpha,\gamma} \sum_{i=1}^N \hat{w}_{m,i} e^{-y_i \alpha b(x_i)}$

因此在每次，我们只需要求解 $\alpha,\gamma$ 就可以了。对于 $\gamma$ 的求解，我们可以直接看作求解 $b_m(x)$ 。
$b^*_m(x)= arg \ min_{b^*} \sum_{i=1}^N \hat{w}_{m,i}I(y_i\neq b(x_i)) =e$
其中， $\hat{w}_{m,i}=e^{-y_i f_{m-1}(x_i)}$
这就是使错误率 $e_m$ 最小对应的模型。

$\sum_{i=1}^N \hat{w}_{m,i} e^{-y_i \alpha b(x_i)}= \sum_{y_i=b_m(x_i)} \hat{w}_{m,i}e^{-\alpha}+\sum_{y_i \neq b_m(x_i)} \hat{w}_{m,i}e^\alpha=(1-e_m)e^{-\alpha}+e_m e^\alpha$
将上式对 $\alpha$ 求导，使导数为0，就可以得到 $\alpha=\frac{1}{2}ln(\frac{1-e_m}{e_m})$
由 $f_m(x)=f_{m-1}(x)+\alpha_m b_m(x)$
以及 $\hat{w}_{m+1,i}=\hat{w}_{m,i}e^{-y_i \alpha_m b_m(x)}$
最终，我们证明了
前向分步算法作为学习算法，指数函数 $e^{-yf(x)}$ 作为损失函数，加法模型的算法就是Ada Boost：
$b_m(x)=arg \ min_{b_m(x)} \sum_{i=1}^N \hat{w}_{m,i} I(y_i\neq b_m(x))$
对应的错误率为 $e_m = \sum_{i=1}^N w_{m,i}I(b_m(x)\neq y_i)$
从而计算得到模型系数 $\alpha =\frac{1}{2}log(\frac{1-e_m}{e_m})$
更新训练样本权重 $w_{m+1,i}=w_{m,i}e^{-\alpha_m y_i b_m(x_i)} / Z_m$

提升树

Adaboost 只解决了分类问题的提升算法，没有解决回归问题的提升算法。
提升树是指采用前向分步算法作为学习算法，以加法算法，设定的损失函数（根据自己定义）的提升算法。
如果损失函数是指数函数，那么提升树就是 Adaboost。
如果损失函数是 MSE函数，那么提升树就是残差树。

残差树算法

$f_m(x)=f_{m-1}(x)+T(x;\theta)$
在第m步时，我们需要求解 $\min_{\theta} \sum_{i=1}^N L(y_i, f_{m-1}(x_i)+T(x_i; \theta))$
使用MSE损失函数时， $L(y,f(x))=( y-f(x) )^2$
损失变成了 $L=[y-f_{m-1}(x)-T(x;\theta)]^2=[r-T(x;\theta)]^2$
我们在第m步，就将训练样本的 $y_i$ 改成 $y_i-f_{m-1}(x_i)$ . 所有样本的权重都是相同的。
这就是残差树。

GBDT

当损失函数是指数函数，MSE函数时，优化相对简单，分别是Adaboost / 残差树。但是如果是一般的损失函数，则每一步的优化不是很容易。
有人提出了梯度提升 gradient boosting 算法，利用损失函数的负梯度在当前模型的值：
$-[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$

xgboost

在Xgboost中，我们一方面考虑模型预测与实际值的误差，另一方面考虑正则项，树的复杂度惩罚项
$L=\sum_{i=1}^N l(y_i,\hat{y}_i)+\sum_{k} \Omicron(f_k)$
前一部分表示每个样本的损失；后一部分表示每个树的复杂度惩罚（正则化项）
我们使用决策树，那么正则化项是叶子节点的个数和叶子节点的分数 $\Omicron(f)=\gamma T+\frac{1}{2} \lambda |\omega|^2$
我们使用前向分步算法可以得到：
$L=\sum_{i=1}^N l(y_i, f_{m-1}+f_m(x_i))+\gamma T +\frac{1}{2}|\omega|^2$
$L=\sum_{i=1}^N [l(y_i,f_{m-1})+g_i(y_i,f_{m-1}(x_i))f_m(x_i)+\frac{1}{2}h_i(y_i,f_{m-1}(x_i))f^2_m(x_i)]+\gamma T+\frac{1}{2} |\omega|^2$
$L=\sum_{i=1}^N [g_i f_m(x_i)+\frac{1}{2}h_i f^2_m(x_i)]+\gamma T+\frac{1}{2} |\omega|^2$
我们可以将不同子结点的值合在一起，而不是每个样本进行遍历
$L=\sum_{j=1}^T[ (\sum_{i \in I_j}g_i)w_j +\frac{1}{2}(\sum_{i\in I_j}h_i +\lambda)w_j^2]+\gamma T$
$L=\sum_{j=1}^T [G_j w_j + \frac{1}{2}(H_j +\gamma)w_j^2]+\gamma T$
对于 $w$ 进行求导，得到每个叶结点的最优预测分数：
$w_j=-\frac{G_j}{H_j+\lambda}$
最终得到的目标函数是：
$L=-\frac{1}{2}\sum_{j=1}^T \frac{G_j^2}{H_j+\lambda}+\lambda T$

此时，我们得到了XGboost的打分函数：
$Gain=\frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}-\lambda$
我们根据这个函数来对此棵树进行划分。 (XGboost是基于CART树，每次都是二分树)