XGBoost-原理推导（上）

最新推荐文章于 2023-03-15 19:44:21 发布

现实、狠残酷

最新推荐文章于 2023-03-15 19:44:21 发布

阅读量241

点赞数 1

分类专栏：树模型文章标签：算法决策树机器学习大数据深度学习

本文链接：https://blog.csdn.net/qq_34184505/article/details/118549140

版权

树模型专栏收录该内容

5 篇文章 0 订阅

订阅专栏

XGBoost简介

XGBoost（eXtreme Gradient Boosting）是华盛顿大学博士陈天奇创造的一个梯度提升（Gradient Boosting）的开源框架。至今可以算是各种数据比赛中的大杀器，被大家广泛地运用。

之前的文章我已经介绍了GBDT，如果对GBDT原理不太懂的，强烈建议先把GBDT的原理搞清楚再回过头来看XGBoost，接下来我会分上中下三篇文章详细介绍XGBoost，包括目标函数，学习策略，重要超参数，系统设计，优缺点等。

目标函数

我们知道 XGBoost 是由 K 个基模型组成的一个加法运算式：
在这里插入图片描述
其中 $f_k$ 表示第 $k$ 个模型， $\widehat{y}_i$ 为第 $i$ 个样本的预测值。

损失函数可由预测值 $\widehat{y}_i$ 与真实值 $y_i$ 进行表示：
在这里插入图片描述
我们知道模型的预测精度由模型的偏差和方差共同决定，损失函数代表了模型的偏差，想要方差小则需要简单的模型，所以目标函数由模型的损失函数 $L$ 与抑制模型复杂度的正则项 $\Omega$ 组成，所以我们有：
在这里插入图片描述
$\Omega$ 为模型的正则项，由于 XGBoost 支持决策树也支持线性模型，所以这里再不展开描述。

我们知道 boosting 模型是前向加法，以第 $t$ 步的模型为例，模型对第 $i$ 个样本 $x_i$ 的预测为：
在这里插入图片描述
其中 $\widehat{y}^{t-1}_i$ 由第 $t - 1$ 步的模型给出的预测值，是已知常数， $f_t(x_i)$ 是我们这次需要加入的新模型的预测值，此时，目标函数就可以写成：

求此时最优化目标函数，就相当于求解 $f_t(x_i)$ 。

根据泰勒公式我们把函数 $f(x+\Delta x)$ 在点 $x$ 处进行泰勒的二阶展开，可得到如下等式：
在这里插入图片描述
我们把 $\widehat{y}^{t-1}_i$ 视为 $x$ ， $f_t(x_i)$ 视为 $\Delta x$ ，故可以将目标函数写为：

其中 $g_i$ 为损失函数的一阶导， $h_i$ 为损失函数的二阶导，注意这里的导是对 $\widehat{y}^{t-1}_i$ 求导。

在这里插入图片描述
我们以平方损失函数为例：

则：

由于在第 $t$ 步时 $\widehat{y}^{t-1}_i$ 其实是一个已知的值，所以 $l(y_i,\widehat{y}^{t-1}_i)$ 是一个常数，其对函数的优化不会产生影响，因此目标函数可以写成：

所以我们只需要求出每一步损失函数的一阶导和二阶导的值（由于前一步的 $\widehat{y}^{t-1}$ 是已知的，所以这两个值就是常数），然后最优化目标函数，就可以得到每一步的 $f (x)$ ，最后根据加法模型得到一个整体模型。

注意：其实推导到这里我们还可以将上式子进一步简化，式子中的第二项是每个基学习器求和的结果，前面的 $t - 1$ 个学习器是已知的，所以正则化的前 $t - 1$ 项也是已知的，可以看作一个常数。

在这里插入图片描述

基于决策树的目标函数

我们知道 Xgboost 的基模型不仅支持决策树，还支持线性模型，这里我们主要介绍基于决策树的目标函数。
在这里插入图片描述 $x$ 为某一样本，这里的 $q (x)$ 代表了该样本在哪个叶子结点上，而 $w_q$ 则代表了叶子结点取值 $w$ ，所以 $w_{q(x)}$ 就代表了每个样本的取值 $w$ （即预测值）。

决策树的复杂度可由叶子数 $T$ 组成，叶子节点越少模型越简单，此外叶子节点也不应该含有过高的权重 $w$ （类比 LR 的每个变量的权重），所以目标函数的正则项可以定义为：
在这里插入图片描述
即决策树模型的复杂度由生成的所有决策树的叶子节点数量，和所有节点权重所组成的向量的 $L 2$ 范式共同决定。

这张图给出了基于决策树的 XGBoost 的正则项的求解方式。
我们设 $I_j = \{i\mid q(x_i) = j\}$ 为第 $j$ 个叶子节点的样本集合，故我们的目标函数可以写成：
在这里插入图片描述
第二步到第三步可能看的不是特别明白，这边做些解释：第二步是遍历所有的样本后求每个样本的损失函数，但样本最终会落在叶子节点上，所以我们也可以遍历叶子节点，然后获取叶子节点上的样本集合，最后在求损失函数。即我们之前样本的集合，现在都改写成叶子结点的集合，由于一个叶子结点有多个样本存在，因此才有了 $\sum_{i\in I_j}g_i$ 和 $\sum_{i\in I_j}h_i$ 这两项， $w_j$ 为第 $j$ 个叶子节点取值。

为简化表达式，我们定义 $G_j = \sum_{i\in I_j}g_i$ ， $H_j = \sum_{i\in I_j}h_i$ ，则目标函数为：
在这里插入图片描述
这里我们要注意 $G_j$ 和 $H_j$ 是前 $t - 1$ 步得到的结果，其值已知可视为常数，只有最后一棵树的叶子节点 $w_j$ 不确定，那么将目标函数对 $w_j$ 求一阶导，并令其等于 $0$ ，则可以求得叶子结点 $j$ 对应的权值：
在这里插入图片描述
所以目标函数可以化简为：

上图给出目标函数计算的例子，求每个节点每个样本的一阶导数 $g_i$ 和二阶导数 $h_i$ ，然后针对每个节点对所含样本求和得到的 $G_i$ 和 $H_i$ ，最后遍历决策树的节点即可得到目标函数。

到了这里，大家可能已经注意到了，比起最初的损失函数 + 复杂度的样子，我们的目标函数已经发生了巨大变化。我们的样本量已经被归结到了每个叶子当中去，我们的目标函数是基于每个叶子节点，也就是树的结构来计算。所以，我们的目标函数又叫做“结构分数”（structure score），分数越低，树整体的结构越好。如此，我们就建立了树的结构（叶子）和模型效果的直接联系。

最优切分点划分算法

在决策树的生长过程中，一个非常关键的问题是如何找到叶子的节点的最优切分点，Xgboost 支持两种分裂节点的方法——贪心算法和近似算法。

1.贪心算法

贪心算法指的是控制局部最优来达到全局最优的算法，决策树算法本身就是一种使用贪婪算法的方法。XGB作为树的集成模型，自然也想到采用这样的方法来进行计算，所以我们认为，如果每片叶子都是最优，则整体生成的树结构就是最优，如此就可以避免去枚举所有可能的树结构
在这里插入图片描述
回忆一下决策树中我们是如何进行计算：我们使用基尼系数或信息熵来衡量分枝之后叶子节点的不纯度，分枝前的信息熵与分治后的信息熵之差叫做信息增益，信息增益最大的特征上的分枝就被我们选中，当信息增益低于某个阈值时，就让树停止生长。在XGB中，我们使用的方式是类似的：我们首先使用目标函数来衡量树的结构的优劣，然后让树从深度0开始生长，每进行一次分枝，我们就计算目标函数减少了多少，当目标函数的降低低于我们设定的某个阈值时，就让树停止生长。

具体步骤：

从深度为 [公式] 的树开始，对每个叶节点枚举所有的可用特征；
针对每个特征，把属于该节点的训练样本根据该特征值进行升序排列，通过线性扫描的方式来决定该特征的最佳分裂点，并记录该特征的分裂收益；
选择收益最大的特征作为分裂特征，用该特征的最佳分裂点作为分裂位置，在该节点上分裂出左右两个新的叶节点，并为每个新节点关联对应的样本集
回到第 1 步，递归执行到满足特定条件为止

那么如何计算每个特征的分裂收益呢？

假设我们在某一节点完成特征分裂，则分列前的目标函数可以写为：
在这里插入图片描述
分裂后的目标函数为：

则对于目标函数来说，分裂后的收益为：

注意该特征收益也可作为特征重要性输出的重要依据。对于每次分裂，我们都需要枚举所有特征可能的分割方案，如何高效地枚举所有的分割呢？

我假设我们要枚举所有 $x < a$ 这样的条件，对于某个特定的分割点 $a$ 我们要计算 $a$ 左边和右边的导数和。
在这里插入图片描述
我们可以发现对于所有的分裂点 $a$ ，我们只要做一遍从左到右的扫描就可以枚举出所有分割的梯度和 $G_L$ 和 $G_R$ 。然后用上面的公式计算每个分割方案的分数就可以了。

CART树全部是二叉树，因此这个式子是可以推广的。从这个式子我们可以总结出，其实分枝后的结构分数之差为：
在这里插入图片描述
其中 $G_L$ 和 $H_L$ 从左节点上计算得出， $G_R$ 和 $H_R$ 从右节点上计算得出，而 $G_L + G_R)$ 和 $H_L + H_R)$ 从中间节点上计算得出。对于任意分枝，我们都可以这样来进行计算。

在现实中，我们会对所有特征的所有分枝点进行如上计算，然后选出让目标函数下降最快的节点来进行分枝。对每一棵树的每一层，我们都进行这样的计算，比起原始的梯度下降，实践证明这样的求解最佳树结构的方法运算更快，并且在大型数据下也能够表现不错。至此，我们作为XGBoost的使用者，已经将需要理解的XGB的原理理解完毕了。

2.近似算法

贪婪算法可以的到最优解，但当数据量太大时则无法读入内存进行计算，近似算法主要针对贪婪算法这一缺点给出了近似最优解。

对于每个特征，只考察分位点可以减少计算复杂度。

该算法会首先根据特征分布的分位数提出候选划分点，然后将连续型特征映射到由这些候选点划分的桶中，然后聚合统计信息找到所有区间的最佳分裂点。

在提出候选切分点时有两种策略：

Global：学习每棵树前就提出候选切分点，并在每次分裂时都采用这种分割；
Local：每次分裂前将重新提出候选切分点。

直观上来看，Local 策略需要更多的计算步骤，而 Global 策略因为节点没有划分所以需要更多的候选点。

下图给出不同种分裂策略的 AUC 变换曲线，横坐标为迭代次数，纵坐标为测试集 AUC，eps 为近似算法的精度，其倒数为桶的数量。
在这里插入图片描述
我们可以看到 Global 策略在候选点数多时（eps 小）可以和 Local 策略在候选点少时（eps 大）具有相似的精度。此外我们还发现，在 eps 取值合理的情况下，分位数策略可以获得与贪婪算法相同的精度。

第一个 for 循环：对特征 k 根据该特征分布的分位数找到切割点的候选集合 $S_k = \{ s_{k1},s_{k2},...,s_{kl}\}$ 。XGBoost 支持 Global 策略和 Local 策略。