XGBoost简介
XGBoost(eXtreme Gradient Boosting)是华盛顿大学博士陈天奇创造的一个梯度提升(Gradient Boosting)的开源框架。至今可以算是各种数据比赛中的大杀器,被大家广泛地运用。
之前的文章我已经介绍了GBDT,如果对GBDT原理不太懂的,强烈建议先把GBDT的原理搞清楚再回过头来看XGBoost,接下来我会分上中下三篇文章详细介绍XGBoost,包括目标函数,学习策略,重要超参数,系统设计,优缺点等。
目标函数
我们知道 XGBoost 是由 K 个基模型组成的一个加法运算式:
其中
f
k
f_k
fk表示第
k
k
k个模型,
y
^
i
\widehat{y}_i
y
i为第
i
i
i个样本的预测值。
损失函数可由预测值
y
^
i
\widehat{y}_i
y
i 与真实值
y
i
y_i
yi 进行表示:
我们知道模型的预测精度由模型的偏差和方差共同决定,损失函数代表了模型的偏差,想要方差小则需要简单的模型,所以目标函数由模型的损失函数
L
L
L 与抑制模型复杂度的正则项
Ω
\Omega
Ω 组成,所以我们有:
Ω
\Omega
Ω 为模型的正则项,由于 XGBoost 支持决策树也支持线性模型,所以这里再不展开描述。
我们知道 boosting 模型是前向加法,以第
t
t
t 步的模型为例,模型对第
i
i
i 个样本
x
i
x_i
xi 的预测为:
其中
y
^
i
t
−
1
\widehat{y}^{t-1}_i
y
it−1 由第
t
−
1
t-1
t−1 步的模型给出的预测值,是已知常数,
f
t
(
x
i
)
f_t(x_i)
ft(xi) 是我们这次需要加入的新模型的预测值,此时,目标函数就可以写成:
求此时最优化目标函数,就相当于求解
f
t
(
x
i
)
f_t(x_i)
ft(xi) 。
根据泰勒公式我们把函数
f
(
x
+
Δ
x
)
f(x+\Delta x)
f(x+Δx) 在点
x
x
x 处进行泰勒的二阶展开,可得到如下等式:
我们把
y
^
i
t
−
1
\widehat{y}^{t-1}_i
y
it−1 视为
x
x
x,
f
t
(
x
i
)
f_t(x_i)
ft(xi) 视为
Δ
x
\Delta x
Δx ,故可以将目标函数写为:
其中
g
i
g_i
gi 为损失函数的一阶导,
h
i
h_i
hi 为损失函数的二阶导,注意这里的导是对
y
^
i
t
−
1
\widehat{y}^{t-1}_i
y
it−1 求导。
我们以平方损失函数为例:
则:
由于在第
t
t
t 步时
y
^
i
t
−
1
\widehat{y}^{t-1}_i
y
it−1 其实是一个已知的值,所以
l
(
y
i
,
y
^
i
t
−
1
)
l(y_i,\widehat{y}^{t-1}_i)
l(yi,y
it−1) 是一个常数,其对函数的优化不会产生影响,因此目标函数可以写成:
所以我们只需要求出每一步损失函数的一阶导和二阶导的值(由于前一步的
y
^
t
−
1
\widehat{y}^{t-1}
y
t−1 是已知的,所以这两个值就是常数),然后最优化目标函数,就可以得到每一步的
f
(
x
)
f(x)
f(x) ,最后根据加法模型得到一个整体模型。
注意:其实推导到这里我们还可以将上式子进一步简化,式子中的第二项是每个基学习器求和的结果,前面的 t − 1 t-1 t−1 个学习器是已知的,所以正则化的前 t − 1 t-1 t−1 项也是已知的,可以看作一个常数。
基于决策树的目标函数
我们知道 Xgboost 的基模型不仅支持决策树,还支持线性模型,这里我们主要介绍基于决策树的目标函数。
x
x
x 为某一样本,这里的
q
(
x
)
q(x)
q(x) 代表了该样本在哪个叶子结点上,而
w
q
w_q
wq 则代表了叶子结点取值
w
w
w ,所以
w
q
(
x
)
w_{q(x)}
wq(x) 就代表了每个样本的取值
w
w
w(即预测值)。
决策树的复杂度可由叶子数
T
T
T 组成,叶子节点越少模型越简单,此外叶子节点也不应该含有过高的权重
w
w
w (类比 LR 的每个变量的权重),所以目标函数的正则项可以定义为:
即决策树模型的复杂度由生成的所有决策树的叶子节点数量,和所有节点权重所组成的向量的
L
2
L2
L2 范式共同决定。
这张图给出了基于决策树的 XGBoost 的正则项的求解方式。
我们设
I
j
=
{
i
∣
q
(
x
i
)
=
j
}
I_j = \{i\mid q(x_i) = j\}
Ij={i∣q(xi)=j} 为第
j
j
j 个叶子节点的样本集合,故我们的目标函数可以写成:
第二步到第三步可能看的不是特别明白,这边做些解释:第二步是遍历所有的样本后求每个样本的损失函数,但样本最终会落在叶子节点上,所以我们也可以遍历叶子节点,然后获取叶子节点上的样本集合,最后在求损失函数。即我们之前样本的集合,现在都改写成叶子结点的集合,由于一个叶子结点有多个样本存在,因此才有了
∑
i
∈
I
j
g
i
\sum_{i\in I_j}g_i
∑i∈Ijgi和
∑
i
∈
I
j
h
i
\sum_{i\in I_j}h_i
∑i∈Ijhi 这两项,
w
j
w_j
wj 为第
j
j
j 个叶子节点取值。
为简化表达式,我们定义
G
j
=
∑
i
∈
I
j
g
i
G_j = \sum_{i\in I_j}g_i
Gj=∑i∈Ijgi ,
H
j
=
∑
i
∈
I
j
h
i
H_j = \sum_{i\in I_j}h_i
Hj=∑i∈Ijhi ,则目标函数为:
这里我们要注意
G
j
G_j
Gj 和
H
j
H_j
Hj 是前
t
−
1
t-1
t−1 步得到的结果,其值已知可视为常数,只有最后一棵树的叶子节点
w
j
w_j
wj 不确定,那么将目标函数对
w
j
w_j
wj 求一阶导,并令其等于
0
0
0 ,则可以求得叶子结点
j
j
j 对应的权值:
所以目标函数可以化简为:
上图给出目标函数计算的例子,求每个节点每个样本的一阶导数
g
i
g_i
gi 和二阶导数
h
i
h_i
hi ,然后针对每个节点对所含样本求和得到的
G
i
G_i
Gi 和
H
i
H_i
Hi ,最后遍历决策树的节点即可得到目标函数。
到了这里,大家可能已经注意到了,比起最初的损失函数 + 复杂度的样子,我们的目标函数已经发生了巨大变化。我们的样本量已经被归结到了每个叶子当中去,我们的目标函数是基于每个叶子节点,也就是树的结构来计算。所以,我们的目标函数又叫做“结构分数”(structure score),分数越低,树整体的结构越好。如此,我们就建立了树的结构(叶子)和模型效果的直接联系。
最优切分点划分算法
在决策树的生长过程中,一个非常关键的问题是如何找到叶子的节点的最优切分点,Xgboost 支持两种分裂节点的方法——贪心算法和近似算法。
1.贪心算法
贪心算法指的是控制局部最优来达到全局最优的算法,决策树算法本身就是一种使用贪婪算法的方法。XGB作为树的集成模型,自然也想到采用这样的方法来进行计算,所以我们认为,如果每片叶子都是最优,则整体生成的树结构就是最优,如此就可以避免去枚举所有可能的树结构
回忆一下决策树中我们是如何进行计算:我们使用基尼系数或信息熵来衡量分枝之后叶子节点的不纯度,分枝前的信息熵与分治后的信息熵之差叫做信息增益,信息增益最大的特征上的分枝就被我们选中,当信息增益低于某个阈值时,就让树停止生长。在XGB中,我们使用的方式是类似的:我们首先使用目标函数来衡量树的结构的优劣,然后让树从深度0开始生长,每进行一次分枝,我们就计算目标函数减少了多少,当目标函数的降低低于我们设定的某个阈值时,就让树停止生长。
具体步骤:
- 从深度为 [公式] 的树开始,对每个叶节点枚举所有的可用特征;
- 针对每个特征,把属于该节点的训练样本根据该特征值进行升序排列,通过线性扫描的方式来决定该特征的最佳分裂点,并记录该特征的分裂收益;
- 选择收益最大的特征作为分裂特征,用该特征的最佳分裂点作为分裂位置,在该节点上分裂出左右两个新的叶节点,并为每个新节点关联对应的样本集
- 回到第 1 步,递归执行到满足特定条件为止
那么如何计算每个特征的分裂收益呢?
假设我们在某一节点完成特征分裂,则分列前的目标函数可以写为:
分裂后的目标函数为:
则对于目标函数来说,分裂后的收益为:
注意该特征收益也可作为特征重要性输出的重要依据。对于每次分裂,我们都需要枚举所有特征可能的分割方案,如何高效地枚举所有的分割呢?
我假设我们要枚举所有
x
<
a
x<a
x<a 这样的条件,对于某个特定的分割点
a
a
a 我们要计算
a
a
a 左边和右边的导数和。
我们可以发现对于所有的分裂点
a
a
a ,我们只要做一遍从左到右的扫描就可以枚举出所有分割的梯度和
G
L
G_L
GL 和
G
R
G_R
GR 。然后用上面的公式计算每个分割方案的分数就可以了。
CART树全部是二叉树,因此这个式子是可以推广的。从这个式子我们可以总结出,其实分枝后的结构分数之差为:
其中
G
L
G_L
GL 和
H
L
H_L
HL 从左节点上计算得出,
G
R
G_R
GR 和
H
R
H_R
HR 从右节点上计算得出,而
(
G
L
+
G
R
)
(G_L + G_R)
(GL+GR) 和
(
H
L
+
H
R
)
(H_L + H_R)
(HL+HR) 从中间节点上计算得出。对于任意分枝,我们都可以这样来进行计算。
在现实中,我们会对所有特征的所有分枝点进行如上计算,然后选出让目标函数下降最快的节点来进行分枝。对每一棵树的每一层,我们都进行这样的计算,比起原始的梯度下降,实践证明这样的求解最佳树结构的方法运算更快,并且在大型数据下也能够表现不错。至此,我们作为XGBoost的使用者,已经将需要理解的XGB的原理理解完毕了。
2.近似算法
贪婪算法可以的到最优解,但当数据量太大时则无法读入内存进行计算,近似算法主要针对贪婪算法这一缺点给出了近似最优解。
对于每个特征,只考察分位点可以减少计算复杂度。
该算法会首先根据特征分布的分位数提出候选划分点,然后将连续型特征映射到由这些候选点划分的桶中,然后聚合统计信息找到所有区间的最佳分裂点。
在提出候选切分点时有两种策略:
Global:学习每棵树前就提出候选切分点,并在每次分裂时都采用这种分割;
Local:每次分裂前将重新提出候选切分点。
直观上来看,Local 策略需要更多的计算步骤,而 Global 策略因为节点没有划分所以需要更多的候选点。
下图给出不同种分裂策略的 AUC 变换曲线,横坐标为迭代次数,纵坐标为测试集 AUC,eps 为近似算法的精度,其倒数为桶的数量。
我们可以看到 Global 策略在候选点数多时(eps 小)可以和 Local 策略在候选点少时(eps 大)具有相似的精度。此外我们还发现,在 eps 取值合理的情况下,分位数策略可以获得与贪婪算法相同的精度。
第一个 for 循环:对特征 k 根据该特征分布的分位数找到切割点的候选集合
S
k
=
{
s
k
1
,
s
k
2
,
.
.
.
,
s
k
l
}
S_k = \{ s_{k1},s_{k2},...,s_{kl}\}
Sk={sk1,sk2,...,skl} 。XGBoost 支持 Global 策略和 Local 策略。
第二个 for 循环:针对每个特征的候选集合,将样本映射到由该特征对应的候选点集构成的分桶区间中,即 s k , v ≥ x j k ≥ s k , v − 1 s_{k,v} \geq x_{jk} \geq s_{k,v-1} sk,v≥xjk≥sk,v−1 ,对每个桶统计 G , H G,H G,H 值,最后在这些统计量上寻找最佳分裂点。
下图给出近似算法的具体例子,以三分位为例:
根据样本特征进行排序,然后基于分位数进行划分,并统计三个桶内的 [公式] 值,最终求解节点划分的增益。
加权分位数缩略图
事实上, XGBoost 不是简单地按照样本个数进行分位,而是以二阶导数值 [公式] 作为样本的权重进行划分,如下:
那么问题来了:为什么要用
h
i
h_i
hi 进行样本加权?
我们知道模型的目标函数为:
我们稍作整理,便可以看出
h
i
h_i
hi 有对 loss 加权的作用。
其中
1
2
1\over2
21
g
i
2
h
i
g_i^2\over h_i
higi2 与
C
C
C 皆为常数。我们可以看到
h
i
h_i
hi 就是平方损失函数中样本的权重。
对于样本权值相同的数据集来说,找到候选分位点已经有了解决方案(GK 算法),但是当样本权值不一样时,该如何找到候选分位点呢?(作者给出了一个 Weighted Quantile Sketch 算法,这里将不做介绍。)
稀疏感知算法
在决策树的第一篇文章中我们介绍 CART 树在应对数据缺失时的分裂策略,XGBoost 也给出了其解决方案。
XGBoost 在构建树的节点过程中只考虑非缺失值的数据遍历,而为每个节点增加了一个缺省方向,当样本相应的特征值缺失时,可以被归类到缺省方向上,最优的缺省方向可以从数据中学到。至于如何学到缺省值的分支,其实很简单,分别枚举特征缺省的样本归为左右分支后的增益,选择增益最大的枚举项即为最优缺省方向。
在构建树的过程中需要枚举特征缺失的样本,乍一看该算法的计算量增加了一倍,但其实该算法在构建树的过程中只考虑了特征未缺失的样本遍历,而特征值缺失的样本无需遍历只需直接分配到左右节点,故算法所需遍历的样本量减少,下图可以看到稀疏感知算法比 basic 算法速度块了超过 50 倍。