相见恨晚！一文搞清XGBoost算法

林立可

已于 2023-03-28 10:28:44 修改

阅读量5.4w

点赞数 55

分类专栏：机器学习文章标签：决策树算法

于 2021-04-07 11:37:08 首次发布

本文链接：https://blog.csdn.net/qq_40589204/article/details/115481924

版权

机器学习专栏收录该内容

5 篇文章

订阅专栏

XGBoost算法

1，算法简介

XGBoost(Extreme Gradient Boosting),即一种高效的梯度提升决策树算法。他在原有的GBDT基础上进行了改进，使得模型效果得到大大提升。作为一种前向加法模型，他的核心是采用集成思想——Boosting思想，将多个弱学习器通过一定的方法整合为一个强学习器。即用多棵树共同决策，并且用每棵树的结果都是目标值与之前所有树的预测结果之差并将所有的结果累加即得到最终的结果，以此达到整个模型效果的提升。

XGBoost是由多棵CART(Classification And Regression Tree)，即分类回归树组成，因此他可以处理分类回归等问题。

2，算法推导

下图是一个预测一家人喜欢电脑游戏的回归问题。可以看到样本落到叶子结点，对应的权重即为样本的回归分数。多棵树的预测结果即为最终的结果。

上面的模型可定义为：

$\hat{y}_{i}=\sum_{k=1}^{K} f_{k}\left(x_{i}\right), f_{k} \in \mathcal{F}$

其中，K表示树的数目，f表示函数空间F中的一个函数，代表树这种抽象结构。那么 $y_i^{\prime}$ 表示的即为最终预测结果。我们定义目标函数为：

$\operatorname{obj}(\theta)=\sum_{i}^{n} l\left(y_{i}, \hat{y}_{i}\right)+\sum_{k=1}^{K} \Omega\left(f_{k}\right)$

其中， $l$ 为我们的损失函数，Ω为惩罚项。它在形式上如下图所示：

对于增量模型的定义，我们是用每一个树的预测结果去拟合上一棵树预测结果的残差，这样整体的树模型效果才会越来越好。

$\begin{aligned} \hat{y}_{i}^{(0)} &=0 \\ \hat{y}_{i}^{(1)} &=f_{1}\left(x_{i}\right)=\hat{y}_{i}^{(0)}+f_{1}\left(x_{i}\right) \\ \hat{y}_{i}^{(2)} &=f_{1}\left(x_{i}\right)+f_{2}\left(x_{i}\right)=\hat{y}_{i}^{(1)}+f_{2}\left(x_{i}\right) \end{aligned}$ $......$ $\hat{y}_{i}^{(t)}=\sum_{k=1}^{t} f_{k}\left(x_{i}\right)=\hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right)$

可以看到，0棵树模型的预测结果为0，一颗树模型的预测结果为第一颗树的表现，在数值上等于上一课的预测结果加上当前树的表现；2棵树模型的预测结果等于第一颗树的表现加上第2棵树的表现，在数值上也等于上一课的预测结果加上当前树的表现；

因此，我们可以得到t棵树模型的预测结果，在数值上等于前面t-1棵树的预测结果，加上第t棵树的表现。那么对于t棵树我们的目标函数为：

因为，当我们求到t棵树模型时，前面t-1树的结果或是结构肯定是已经是确定了的，所以我们将它视为常数便得到上图的最后一个式子。这里的gi和hi是我们的损失函数关于 $\widehat {y_i}^{(t-1)}$ 的一阶、二阶导数，只要损失函数确定，我们的gi，hi就确定了。比如，当我们选取MSE，即均方误差作为损失：

可以看到，这里的梯度值其实就是前面t-1棵树与当前树模型的差值，我们称之为残差。每次我们加的梯度，就是用残差去拟合上几棵树预测的结果，只有这样我们的模型才可能更精确，更接近我们的真实值。

接着，我们对上面的目标函数进行处理：

这里我们定义上面的f(x):

$f_{t}(x)=w_{q(x)}, w \in R^{T}, q: R^{d} \rightarrow\{1,2, \cdots, T\}$

其中w表示叶子结点上的分数所组成的向量，即我们的权重向量；q表示一种映射关系，即每个数据样本对应的叶子结点。那么一棵树的结构就可以描述为叶子结点对应权重的组合。同时，我们定义 $I_{j}=\left\{i \mid q\left(x_{i}\right)=j\right\}$ ,表示某个样本映射到的结点集合。因为多个样本会落到一个结点，所以这里的n>T。同时，我们也将目标函数的定义范围由n个样本转变为了T个结点。