竞赛利器——XGBoost学习笔记

最新推荐文章于 2025-01-05 10:51:20 发布

爱学习的程序员

最新推荐文章于 2025-01-05 10:51:20 发布

阅读量1.6k

点赞数 2

分类专栏：机器学习文章标签：机器学习算法集成学习 GBDT XGBoost

本文链接：https://blog.csdn.net/csdn0123zl/article/details/94734726

版权

机器学习专栏收录该内容

13 篇文章

订阅专栏

经常参加机器学习相关竞赛的同学肯定对 XGBoost 算法并不陌生。它是 GBDT （梯度提升决策树）的一种高效实现，是传统机器学习算法中对真实分布拟合最好的算法之一，是工业界和竞赛屡试不爽的杀器之一。因此，本文将阐述 XGBoost 算法的基本原理和数学论证，希望能帮助大家了解 GBDT 算法和 XGBoost 算法。

简介

与 Adaboost 算法相同，GBDT 算法也是集成学习 Boost 家族的成员之一。然而在 Adaboost 中，我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重。 GBDT 却使用了前向分布算法，并且基学习器也限定为 CART 回归树模型，同时迭代思路和Adaboost也有所不同。而作为 GBDT 算法的高效实现，XGBoost 算法又做了以下几方面的优化：

模型优化：在弱学习器模型，与 GBDT 算法只支持决策树不同，XGBoost 算法还支持很多其他的弱学习器；在损失函数方面，除了自身损失以外，XGBoost 算法还添加了正则化部分，以避免过拟合；在优化方式方面，GBDT 算法的损失函数只对误差部分做负梯度（一阶泰勒）展开，而 XGBoost 算法则对误差部分做二阶泰勒展开，更加准确；
运行效率：在弱学习器的选择方面，XGBoost 算法先对所有的特征的值进行排序分组，以便利弱学习器的并行选择；在分组特征方面，XGBoost 算法会选择合适的分组大小，使用 CPU 缓存进行读取加速，将各个分组保存到多个硬盘以提高 IO 速度。
健壮性：在处理含有缺失值的特征方面，XGBoost 算法通过枚举所有缺失值在当前节点是进入左子树还是右子树来决定缺失值的处理方式；此外，XGBoost 算法还加入了L1和L2正则化项，可以防止过拟合，鲁棒性更好，泛化能力更强。

残差拟合

在前一小节中，我们对 GBDT 算法和 XGBoost 算法的基本概念有了简单介绍。那么，它们的基本思想又是怎样的呢？

我们不妨假设有样本集 $\{(x_1, y_1), (x_2, y_2), \dots, (x_m, y_m)\}$ ，并且在第 $t - 1$ 轮训练得到模型 $F_{t-1}(x)$ 来拟合或者分类这些数据。经过学习过后，我们发现 $F_{t-1}(x)$ 的效果虽然较好，但是与真实数据仍然存在差距。例如， $y_1 = 0.5$ ，但是 $F_{t-1}(x_1) = 0.45$ 。我们当然可以通过调整参数的形式继续训练模型以达到理想结果。可是，我们可以在不更改原先模型 $F_{t-1}(x)$ 的参数的基础上，进一步提升模型的效果吗？

答案自然是可以的。既然我们无法修改原先模型 $F_{t-1}(x)$ 的参数，那么不如换一种思路——训练新的模型 $h (x)$ 来拟合 $F_{t-1}(x)$ 与真实数据的残差，即 $y - F_{t-1}(x)$ 。所以，对于每个样本来说，拟合的数据集即为
$\{(x_1, y_1 - F_{t-1}(x_1)), (x_2, y_2 - F_{t-1}(x_2)), \dots, (x_m, y_m - F_{t-1}(x_m))\}$ 。

因此，在 GBDT 和 XGBoost 算法中，假设我们前一轮得到的强分类器为 $F_{t-1}(x)$ ，损失函数为 $L(y, F_{t-1}(x))$ ，那么为了拟合与真实数据的残差，我们希望找一个基分类器 $h_t(x)$ ，使得本轮的损失函数 $L(y, F_{t-1}(x) + h(x))$ 最小。

举个例子，假如我们预测一名中年男子的年龄（其真实年龄为30岁）。我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。（源自博客梯度提升树(GBDT)原理小结）

想必至此，大家对 GBDT 和 XGBoost 的算法思想已经有了一定的了解。那么，我们到底如何拟合呢？

负梯度拟合

通过前一小结的介绍，我们了解了GBDT 和 XGBoost 算法的基本思想。那么，这一小节，我们就将以数学公式推导的方式进一步探索。值得一提的是，因为 XGBoost 算法是 GBDT 的优化版本，所以，接下来只推导 XGBoost 算法即可。

其实，根据前一小结的学习，我们可以得知，GBDT 和 XGBoost 算法可以看成是由 $t$ 棵树组成的加法模型，

$\hat{y}_i = \sum_{t=1}^Tf_t(x_i), \quad f_t \in F$

其中， $F$ 是所有决策树组成的函数空间。与一般的机器学习算法不同的是，该加法模型的参数为 $\{f_1, f_2, \dots, f_T\}$ 。加法模型不是学习权重，而是直接学习函数（决策树）集合。

上述加法模型的目标函数可以定义为 $\sum_{i=1}^n l(y_i, \hat{y}_i) + \sum_{t=1}^T\Omega(f_k)$ 。其中， $\Omega$ 表示决策树的复杂度，例如树的节点数量、树的深度或者叶子节点所对应的分数的 $L 2$ 范数等等。注意，上式中的正则项是 XGBoost 算法特有的部分。

回到原先的问题，我们如何学习加法模型呢？答案就是前向分布算法。因为学习的是加法模型，如果能够从前往后，每一步只学习一个基函数及其系数（即 GBDT 中的决策树），逐步逼近优化目标函数，那么就可以简化复杂度。这一学习过程称之为 Boosting。具体地，我们从一个常量预测开始，每次学习一个新的函数，过程如下：

$\begin{aligned} \hat{y}_i^0 &= 0 \\ \hat{y}_i^1 &= \hat{y}_i^0 + f_1(x_i) \\ \hat{y}_i^2 &= \hat{y}_i^1 + f_2(x_i) \\ \vdots \\ \hat{y}_i^T &= \hat{y}_i^{T-1} + f_{T}(x_i) \\ \end{aligned}$

那么，在每一步如何决定哪一个函数，或者说决策树被加入呢？自然是最小化目标函数。在第 $t$ 轮迭代中，模型对 $x_i$ 的预测为 $\hat{y}_i^t = \hat{y}_i^{t-1} + f_{t}(x_i)$ 。其中， $f_{t}(x_i)$ 为这一轮中，我们需要学习的函数，或者说决策树。因此，我们可以写出目标函数

$\begin{aligned} Obj^t &= \sum_{i=1}^n l(y_i, \hat{y}_i^t) + \sum_{i=1}^{t}\Omega(f_i) \\ &= \sum_{i=1}^n l(y_i, \hat{y}_i^{t-1} + f_{t}(x_i)) + \Omega(f_t) + constant \end{aligned}$

假设目标函数为平方损失函数，则有

$\begin{aligned} Obj^t &= \sum_{i=1}^n [y_i - (\hat{y}_i^{t-1} + f_{t}(x_i))]^2 + \Omega(f_t) + constant \\ &= \sum_{i=1}^n [2(\hat{y}^{t-1} - y_i)f_t(x_i) + f_t(x_i)^2] + \Omega(f_t) + constant \end{aligned}$

细心的读者不难看出， $\hat{y}^{t-1} - y_i$ 即为我们之前所说的残差。因此，使用平方损失函数时，GBDT 算法的每一步在生成决策树时只需要拟合前面的模型的残差。

那么，更一般地，如果损失函数是其他形式，我们又如何求解呢？答案便是大名鼎鼎的泰勒公式了。

我们知道，根据泰勒公式，我们对函数 $\Delta{x})$ 在点 $x$ 处展开，则有

$\Delta{x}) \simeq f(x) + f^{'}(x)\Delta{x} + \frac{1}{2}f^{''}(x)\Delta{x}^2$

因此，如果我们将原目标函数中的变量 $\hat{y}^{t-1}$ 看作 $x$ ，把变量 $f_{t}(x_i)$ 看作 $\Delta{x}$ ，则有

$Obj^t = \sum_{i=1}^{n}[l(y_i, \hat{y}_i^{t-1}) + g_if_t(x_i) + \frac{1}{2}h_if^2_t(x_i)] + \Omega(f_t) + constant$

其中， $g_i$ 为损失函数的一阶导 $\partial_{\hat{y}^{t-1}}l(y_i, \hat{y}^{t-1})$ ， $h_i$ 为损失函数的二阶导 $\partial_{\hat{y}^{t-1}}^2l(y_i, \hat{y}^{t-1})$ 。感兴趣的读者可以将之前的平方损失函数代入以检验其正确性。此外，值得注意的是，在 GBDT 算法中，只对损失函数进行了一阶泰勒展开。

最后，我们去除无关变量，即有

$Obj^t \simeq \sum_{i=1}^{n}[g_if_t(x_i) + \frac{1}{2}h_if^2_t(x_i)] + \Omega(f_t)$

因为要学习的函数仅仅依赖于目标函数，所以我们只需为学习任务定义好损失函数，并为每个训练样本计算出损失函数的一阶导数和二阶导数，通过在训练样本集上最小化最终的目标函数即可求得每步要学习的函数，从而可得最终要学习的模型。

正则项

通过前一小节，我们对加法模型和前向分布算法有了一定的了解。接下来，我们对 GBDT 算法和 XGBoost 算法继续探索。

我们不妨再进一步地分析一下损失函数中的 $\Omega(f_t)$ 。假设有一棵叶子节点个数为 $T$ 的决策树，该决策树是由所有叶子节点对应的值组成的向量 $\omega \in R^T$ , 以及一个把特征向量映射到叶子节点索引的函数 $R^d \rightarrow \{1, 2, \dots, T\}$ 组成的。因此，该决策树可以定义为 $f_t(x) = \omega_q(x)$ 。其中， $d$ 表示特征向量的维度。

此外，决策树的复杂度可以由正则项 $\Omega(f) = \gamma T + \frac{1}{2}\lambda\sum_{j=1}^T\omega_j^2$ 表示，即决策树模型的复杂度由生成的树的叶子节点数量和叶子节点对应的值向量的L2范数决定。

定义集合 $I_j = \{i|q(x_i)=j\}$ 表示分配到叶子节点 $j$ 的样本集合。因此，原目标函数可改写为

$\begin{aligned} Obj^t &\simeq \sum_{i=1}^{n}[g_if_t(x_i) + \frac{1}{2}h_if^2_t(x_i)] + \Omega(f_t) \\ &= \sum_{i=1}^{n}[g_i\omega_q(x_i) + \frac{1}{2}h_i\omega_q^2(x_i)] + \gamma T + \frac{1}{2}\lambda\sum_{j=1}^T\omega_j^2 \\ &= \sum_{j=1}^{T}[(\sum_{i \in I_j}g_i)\omega_j + \frac{1}{2}(\sum_{i \in I_j}h_i + \lambda)\omega_j^2] + \gamma T \end{aligned}$