XGBoost-原理推导(上)

XGBoost简介

XGBoost(eXtreme Gradient Boosting)是华盛顿大学博士陈天奇创造的一个梯度提升(Gradient Boosting)的开源框架。至今可以算是各种数据比赛中的大杀器,被大家广泛地运用。

之前的文章我已经介绍了GBDT,如果对GBDT原理不太懂的,强烈建议先把GBDT的原理搞清楚再回过头来看XGBoost,接下来我会分上中下三篇文章详细介绍XGBoost,包括目标函数,学习策略,重要超参数,系统设计,优缺点等。

目标函数

我们知道 XGBoost 是由 K 个基模型组成的一个加法运算式:
在这里插入图片描述
其中 f k f_k fk表示第 k k k个模型, y ^ i \widehat{y}_i y i为第 i i i个样本的预测值。

损失函数可由预测值 y ^ i \widehat{y}_i y i 与真实值 y i y_i yi 进行表示:
在这里插入图片描述
我们知道模型的预测精度由模型的偏差和方差共同决定,损失函数代表了模型的偏差,想要方差小则需要简单的模型,所以目标函数由模型的损失函数 L L L 与抑制模型复杂度的正则项 Ω \Omega Ω 组成,所以我们有:
在这里插入图片描述
Ω \Omega Ω 为模型的正则项,由于 XGBoost 支持决策树也支持线性模型,所以这里再不展开描述。

我们知道 boosting 模型是前向加法,以第 t t t 步的模型为例,模型对第 i i i 个样本 x i x_i xi 的预测为:
在这里插入图片描述
其中 y ^ i t − 1 \widehat{y}^{t-1}_i y it1 由第 t − 1 t-1 t1 步的模型给出的预测值,是已知常数, f t ( x i ) f_t(x_i) ft(xi) 是我们这次需要加入的新模型的预测值,此时,目标函数就可以写成:
在这里插入图片描述
求此时最优化目标函数,就相当于求解 f t ( x i ) f_t(x_i) ft(xi)

根据泰勒公式我们把函数 f ( x + Δ x ) f(x+\Delta x) f(x+Δx) 在点 x x x 处进行泰勒的二阶展开,可得到如下等式:
在这里插入图片描述
我们把 y ^ i t − 1 \widehat{y}^{t-1}_i y it1 视为 x x x f t ( x i ) f_t(x_i) ft(xi) 视为 Δ x \Delta x Δx ,故可以将目标函数写为:
在这里插入图片描述
其中 g i g_i gi 为损失函数的一阶导, h i h_i hi 为损失函数的二阶导,注意这里的导是对 y ^ i t − 1 \widehat{y}^{t-1}_i y it1 求导。

在这里插入图片描述
我们以平方损失函数为例:
在这里插入图片描述
则:
在这里插入图片描述
由于在第 t t t 步时 y ^ i t − 1 \widehat{y}^{t-1}_i y it1 其实是一个已知的值,所以 l ( y i , y ^ i t − 1 ) l(y_i,\widehat{y}^{t-1}_i) l(yi,y it1) 是一个常数,其对函数的优化不会产生影响,因此目标函数可以写成:
在这里插入图片描述
所以我们只需要求出每一步损失函数的一阶导和二阶导的值(由于前一步的 y ^ t − 1 \widehat{y}^{t-1} y t1 是已知的,所以这两个值就是常数),然后最优化目标函数,就可以得到每一步的 f ( x ) f(x) f(x) ,最后根据加法模型得到一个整体模型。

注意:其实推导到这里我们还可以将上式子进一步简化,式子中的第二项是每个基学习器求和的结果,前面的 t − 1 t-1 t1 个学习器是已知的,所以正则化的前 t − 1 t-1 t1 项也是已知的,可以看作一个常数。

在这里插入图片描述

基于决策树的目标函数

我们知道 Xgboost 的基模型不仅支持决策树,还支持线性模型,这里我们主要介绍基于决策树的目标函数。
在这里插入图片描述 x x x 为某一样本,这里的 q ( x ) q(x) q(x) 代表了该样本在哪个叶子结点上,而 w q w_q wq 则代表了叶子结点取值 w w w ,所以 w q ( x ) w_{q(x)} wq(x) 就代表了每个样本的取值 w w w(即预测值)。

决策树的复杂度可由叶子数 T T T 组成,叶子节点越少模型越简单,此外叶子节点也不应该含有过高的权重 w w w (类比 LR 的每个变量的权重),所以目标函数的正则项可以定义为:
在这里插入图片描述
即决策树模型的复杂度由生成的所有决策树的叶子节点数量,和所有节点权重所组成的向量的 L 2 L2 L2 范式共同决定。
在这里插入图片描述
这张图给出了基于决策树的 XGBoost 的正则项的求解方式。
我们设 I j = { i ∣ q ( x i ) = j } I_j = \{i\mid q(x_i) = j\} Ij={iq(xi)=j} 为第 j j j 个叶子节点的样本集合,故我们的目标函数可以写成:
在这里插入图片描述
第二步到第三步可能看的不是特别明白,这边做些解释:第二步是遍历所有的样本后求每个样本的损失函数,但样本最终会落在叶子节点上,所以我们也可以遍历叶子节点,然后获取叶子节点上的样本集合,最后在求损失函数。即我们之前样本的集合,现在都改写成叶子结点的集合,由于一个叶子结点有多个样本存在,因此才有了 ∑ i ∈ I j g i \sum_{i\in I_j}g_i iIjgi ∑ i ∈ I j h i \sum_{i\in I_j}h_i iIjhi 这两项, w j w_j wj 为第 j j j 个叶子节点取值。

为简化表达式,我们定义 G j = ∑ i ∈ I j g i G_j = \sum_{i\in I_j}g_i Gj=iIjgi H j = ∑ i ∈ I j h i H_j = \sum_{i\in I_j}h_i Hj=iIjhi ,则目标函数为:
在这里插入图片描述
这里我们要注意 G j G_j Gj H j H_j Hj 是前 t − 1 t-1 t1 步得到的结果,其值已知可视为常数,只有最后一棵树的叶子节点 w j w_j wj 不确定,那么将目标函数对 w j w_j wj 求一阶导,并令其等于 0 0 0 ,则可以求得叶子结点 j j j 对应的权值:
在这里插入图片描述
所以目标函数可以化简为:
在这里插入图片描述
在这里插入图片描述
上图给出目标函数计算的例子,求每个节点每个样本的一阶导数 g i g_i gi 和二阶导数 h i h_i hi ,然后针对每个节点对所含样本求和得到的 G i G_i Gi H i H_i Hi ,最后遍历决策树的节点即可得到目标函数。

到了这里,大家可能已经注意到了,比起最初的损失函数 + 复杂度的样子,我们的目标函数已经发生了巨大变化。我们的样本量已经被归结到了每个叶子当中去,我们的目标函数是基于每个叶子节点,也就是树的结构来计算。所以,我们的目标函数又叫做“结构分数”(structure score),分数越低,树整体的结构越好。如此,我们就建立了树的结构(叶子)和模型效果的直接联系。

最优切分点划分算法

在决策树的生长过程中,一个非常关键的问题是如何找到叶子的节点的最优切分点,Xgboost 支持两种分裂节点的方法——贪心算法和近似算法。

1.贪心算法

贪心算法指的是控制局部最优来达到全局最优的算法,决策树算法本身就是一种使用贪婪算法的方法。XGB作为树的集成模型,自然也想到采用这样的方法来进行计算,所以我们认为,如果每片叶子都是最优,则整体生成的树结构就是最优,如此就可以避免去枚举所有可能的树结构
在这里插入图片描述
回忆一下决策树中我们是如何进行计算:我们使用基尼系数或信息熵来衡量分枝之后叶子节点的不纯度,分枝前的信息熵与分治后的信息熵之差叫做信息增益,信息增益最大的特征上的分枝就被我们选中,当信息增益低于某个阈值时,就让树停止生长。在XGB中,我们使用的方式是类似的:我们首先使用目标函数来衡量树的结构的优劣,然后让树从深度0开始生长,每进行一次分枝,我们就计算目标函数减少了多少,当目标函数的降低低于我们设定的某个阈值时,就让树停止生长。

具体步骤:

  1. 从深度为 [公式] 的树开始,对每个叶节点枚举所有的可用特征;
  2. 针对每个特征,把属于该节点的训练样本根据该特征值进行升序排列,通过线性扫描的方式来决定该特征的最佳分裂点,并记录该特征的分裂收益;
  3. 选择收益最大的特征作为分裂特征,用该特征的最佳分裂点作为分裂位置,在该节点上分裂出左右两个新的叶节点,并为每个新节点关联对应的样本集
  4. 回到第 1 步,递归执行到满足特定条件为止

那么如何计算每个特征的分裂收益呢?

假设我们在某一节点完成特征分裂,则分列前的目标函数可以写为:
在这里插入图片描述
分裂后的目标函数为:
在这里插入图片描述
则对于目标函数来说,分裂后的收益为:
在这里插入图片描述

注意该特征收益也可作为特征重要性输出的重要依据。对于每次分裂,我们都需要枚举所有特征可能的分割方案,如何高效地枚举所有的分割呢?

我假设我们要枚举所有 x < a x<a x<a 这样的条件,对于某个特定的分割点 a a a 我们要计算 a a a 左边和右边的导数和。
在这里插入图片描述
我们可以发现对于所有的分裂点 a a a ,我们只要做一遍从左到右的扫描就可以枚举出所有分割的梯度和 G L G_L GL G R G_R GR 。然后用上面的公式计算每个分割方案的分数就可以了。

CART树全部是二叉树,因此这个式子是可以推广的。从这个式子我们可以总结出,其实分枝后的结构分数之差为:
在这里插入图片描述
其中 G L G_L GL H L H_L HL 从左节点上计算得出, G R G_R GR H R H_R HR 从右节点上计算得出,而 ( G L + G R ) (G_L + G_R) (GL+GR) ( H L + H R ) (H_L + H_R) (HL+HR) 从中间节点上计算得出。对于任意分枝,我们都可以这样来进行计算。

在现实中,我们会对所有特征的所有分枝点进行如上计算,然后选出让目标函数下降最快的节点来进行分枝。对每一棵树的每一层,我们都进行这样的计算,比起原始的梯度下降,实践证明这样的求解最佳树结构的方法运算更快,并且在大型数据下也能够表现不错。至此,我们作为XGBoost的使用者,已经将需要理解的XGB的原理理解完毕了。

2.近似算法

贪婪算法可以的到最优解,但当数据量太大时则无法读入内存进行计算,近似算法主要针对贪婪算法这一缺点给出了近似最优解。

对于每个特征,只考察分位点可以减少计算复杂度。

该算法会首先根据特征分布的分位数提出候选划分点,然后将连续型特征映射到由这些候选点划分的桶中,然后聚合统计信息找到所有区间的最佳分裂点。

在提出候选切分点时有两种策略:

Global:学习每棵树前就提出候选切分点,并在每次分裂时都采用这种分割;
Local:每次分裂前将重新提出候选切分点。

直观上来看,Local 策略需要更多的计算步骤,而 Global 策略因为节点没有划分所以需要更多的候选点。

下图给出不同种分裂策略的 AUC 变换曲线,横坐标为迭代次数,纵坐标为测试集 AUC,eps 为近似算法的精度,其倒数为桶的数量。
在这里插入图片描述
我们可以看到 Global 策略在候选点数多时(eps 小)可以和 Local 策略在候选点少时(eps 大)具有相似的精度。此外我们还发现,在 eps 取值合理的情况下,分位数策略可以获得与贪婪算法相同的精度。
在这里插入图片描述
第一个 for 循环:对特征 k 根据该特征分布的分位数找到切割点的候选集合 S k = { s k 1 , s k 2 , . . . , s k l } S_k = \{ s_{k1},s_{k2},...,s_{kl}\} Sk={sk1,sk2,...,skl} 。XGBoost 支持 Global 策略和 Local 策略。

第二个 for 循环:针对每个特征的候选集合,将样本映射到由该特征对应的候选点集构成的分桶区间中,即 s k , v ≥ x j k ≥ s k , v − 1 s_{k,v} \geq x_{jk} \geq s_{k,v-1} sk,vxjksk,v1 ,对每个桶统计 G , H G,H G,H 值,最后在这些统计量上寻找最佳分裂点。

下图给出近似算法的具体例子,以三分位为例:
在这里插入图片描述
根据样本特征进行排序,然后基于分位数进行划分,并统计三个桶内的 [公式] 值,最终求解节点划分的增益。

加权分位数缩略图

事实上, XGBoost 不是简单地按照样本个数进行分位,而是以二阶导数值 [公式] 作为样本的权重进行划分,如下:
在这里插入图片描述
那么问题来了:为什么要用 h i h_i hi 进行样本加权?

我们知道模型的目标函数为:
在这里插入图片描述
我们稍作整理,便可以看出 h i h_i hi 有对 loss 加权的作用。
在这里插入图片描述
其中 1 2 1\over2 21 g i 2 h i g_i^2\over h_i higi2 C C C 皆为常数。我们可以看到 h i h_i hi 就是平方损失函数中样本的权重。

对于样本权值相同的数据集来说,找到候选分位点已经有了解决方案(GK 算法),但是当样本权值不一样时,该如何找到候选分位点呢?(作者给出了一个 Weighted Quantile Sketch 算法,这里将不做介绍。)

稀疏感知算法

在决策树的第一篇文章中我们介绍 CART 树在应对数据缺失时的分裂策略,XGBoost 也给出了其解决方案。

XGBoost 在构建树的节点过程中只考虑非缺失值的数据遍历,而为每个节点增加了一个缺省方向,当样本相应的特征值缺失时,可以被归类到缺省方向上,最优的缺省方向可以从数据中学到。至于如何学到缺省值的分支,其实很简单,分别枚举特征缺省的样本归为左右分支后的增益,选择增益最大的枚举项即为最优缺省方向。

在构建树的过程中需要枚举特征缺失的样本,乍一看该算法的计算量增加了一倍,但其实该算法在构建树的过程中只考虑了特征未缺失的样本遍历,而特征值缺失的样本无需遍历只需直接分配到左右节点,故算法所需遍历的样本量减少,下图可以看到稀疏感知算法比 basic 算法速度块了超过 50 倍。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

现实、狠残酷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值