极端梯度提升XGBoost
XGBoost属于boosting集成学习方法,其基学习器的学习是串行的。CART回归树的加法模型:
y
^
=
ϕ
(
x
)
=
∑
i
=
1
K
f
k
(
x
)
,
f
k
∈
F
\hat{y}=\phi(x)=\sum_{i=1}^K f_k(x),\quad f_k\in \mathcal{F}
y^=ϕ(x)=i=1∑Kfk(x),fk∈F
其中,
F
=
{
f
(
x
)
=
w
q
(
x
)
}
(
q
:
R
m
→
T
,
w
∈
R
T
)
\mathcal{F}=\{f(x)=w_{q(x)}\}(q: \mathbb{R}^m\rightarrow T,w\in \mathbb{R}^T)
F={f(x)=wq(x)}(q:Rm→T,w∈RT)为包含所有CART回归树的函数空间。
- 每个 f k f_k fk对应一个独立的树结构 q q q和叶子结点的得分,它的取值为样本点所在叶结点的得分,
- 树结构 q q q看做一个诸多样本点映射到各个叶子结点的函数, T T T为叶子结点的个数,
- w i w_i wi代表第 i i i个叶子结点的得分。
模型参数为每棵树的结构及其叶结点的得分,或者简单的记作 Θ = { f 1 , f 2 , . . . , f K } \Theta=\{f_1,f_2,...,f_K\} Θ={f1,f2,...,fK},也就是说,这里我们要学习的是一个个函数——学习树模型:定义一个目标函数,然后最优化目标函数。
XGBoost目标函数——正则化思想
基于正则化思想,给定数据集
{
(
x
i
,
y
i
)
,
1
≤
i
≤
n
}
\{(x_i,y_i),\quad 1\leq i\leq n\}
{(xi,yi),1≤i≤n},
x
i
∈
R
m
,
y
i
∈
R
x_i\in \mathbb{R}^m, y_i\in\mathbb{R}
xi∈Rm,yi∈R,通过最优化以下目标函数来学习模型,
min
f
k
L
(
ϕ
)
=
∑
i
=
1
n
l
(
y
i
,
y
^
i
)
+
∑
k
=
1
K
Ω
(
f
k
)
w
h
e
r
e
Ω
(
f
)
=
γ
T
+
1
2
λ
∣
∣
w
∣
∣
2
\begin{aligned} &\min_{f_k} \quad L(\phi)=\sum_{i=1}^nl(y_i,\hat{y}_i)+\sum_{k=1}^K\Omega(f_k)\\ &where \quad \Omega(f)=\gamma T+\frac{1}{2}\lambda ||w||^2 \end{aligned}
fkminL(ϕ)=i=1∑nl(yi,y^i)+k=1∑KΩ(fk)whereΩ(f)=γT+21λ∣∣w∣∣2
其中, l l l为损失函数(可微、凸函数); Ω \Omega Ω衡量树的复杂度:对叶结点个数 T T T进行惩罚(剪枝),叶结点得分 w w wL2正则化项(光滑的得分函数、避免过拟合)。
优化目标函数——Additive Training
由于我们这里的
f
k
f_k
fk是树,而不是一般地数值向量,不能用像SGD这样的方法来求解,因此采用Additive Training。
第
t
t
t轮学习中,我们需要寻找最优的
f
t
f_t
ft得到预测
y
^
i
(
t
)
=
y
^
i
(
t
−
1
)
+
f
t
(
x
i
)
\hat{y}_i^{(t)}=\hat{y}_i^{(t-1)}+f_t(x_i)
y^i(t)=y^i(t−1)+ft(xi),可写第
t
t
t轮的目标函数
L
(
t
)
=
∑
i
=
1
n
l
(
y
i
,
y
^
i
(
t
)
)
+
∑
k
=
1
t
Ω
(
f
k
)
=
∑
i
=
1
n
l
(
y
i
,
y
^
i
(
t
−
1
)
+
f
t
(
x
i
)
)
+
Ω
(
f
t
)
+
∑
k
=
1
t
−
1
Ω
(
f
k
)
\begin{aligned} L^{(t)}&=\sum_{i=1}^nl(y_i,\hat{y}_i^{(t)})+\sum_{k=1}^t\Omega(f_k)\\ &=\sum_{i=1}^nl(y_i,\hat{y}_i^{(t-1)}+f_t(x_i))+\Omega(f_t)+\sum_{k=1}^{t-1}\Omega(f_k) \end{aligned}
L(t)=i=1∑nl(yi,y^i(t))+k=1∑tΩ(fk)=i=1∑nl(yi,y^i(t−1)+ft(xi))+Ω(ft)+k=1∑t−1Ω(fk)
最后一项与 f t f_t ft无关,于是第 t t t轮需要求解优化问题,
min f t ∑ i = 1 n l ( y i , y ^ i ( t − 1 ) + f t ( x i ) ) + Ω ( f t ) \min_{f_t}\quad \sum_{i=1}^nl(y_i,\hat{y}_i^{(t-1)}+f_t(x_i))+\Omega(f_t) ftmini=1∑nl(yi,y^i(t−1)+ft(xi))+Ω(ft)
损失函数
l
(
y
i
,
ϕ
)
l(y_i,\phi)
l(yi,ϕ)在
ϕ
=
y
^
i
(
t
−
1
)
\phi=\hat{y}_i^{(t-1)}
ϕ=y^i(t−1)处进行二阶泰勒展开,
l
(
y
i
,
ϕ
)
≈
l
(
y
i
,
y
^
i
(
t
−
1
)
)
+
g
i
(
ϕ
−
y
^
i
(
t
−
1
)
)
+
1
2
h
i
(
ϕ
−
y
^
i
(
t
−
1
)
)
2
l(y_i,\phi)\approx l(y_i,\hat{y}_i^{(t-1)})+g_i(\phi-\hat{y}_i^{(t-1)})+\frac{1}{2}h_i(\phi-\hat{y}_i^{(t-1)})^2
l(yi,ϕ)≈l(yi,y^i(t−1))+gi(ϕ−y^i(t−1))+21hi(ϕ−y^i(t−1))2
其中,
g
i
=
[
∂
l
(
y
i
,
ϕ
)
∂
ϕ
]
ϕ
=
y
^
i
(
t
−
1
)
,
h
i
=
[
∂
2
l
(
y
i
,
ϕ
)
∂
2
ϕ
]
ϕ
=
y
^
i
(
t
−
1
)
g_i=\left[\frac{\partial l(y_i,\phi)}{\partial \phi}\right]_{\phi=\hat{y}_i^{(t-1)}},\quad h_i=\left[\frac{\partial^2 l(y_i,\phi)}{\partial^2 \phi}\right]_{\phi=\hat{y}_i^{(t-1)}}
gi=[∂ϕ∂l(yi,ϕ)]ϕ=y^i(t−1),hi=[∂2ϕ∂2l(yi,ϕ)]ϕ=y^i(t−1)
令
ϕ
=
y
^
i
(
t
)
\phi=\hat{y}_i^{(t)}
ϕ=y^i(t),
l
(
y
i
,
y
^
i
(
t
)
)
≈
l
(
y
i
,
y
^
i
(
t
−
1
)
)
+
g
i
(
y
^
i
(
t
)
−
y
^
i
(
t
−
1
)
)
+
1
2
h
i
(
y
^
i
(
t
)
−
y
^
i
(
t
−
1
)
)
2
=
l
(
y
i
,
y
^
i
(
t
−
1
)
)
+
g
i
f
t
(
x
i
)
+
1
2
h
i
f
t
2
(
x
i
)
\begin{aligned} l(y_i,\hat{y}_i^{(t)})&\approx l(y_i,\hat{y}_i^{(t-1)})+g_i(\hat{y}_i^{(t)}-\hat{y}_i^{(t-1)})+\frac{1}{2}h_i(\hat{y}_i^{(t)}-\hat{y}_i^{(t-1)})^2\\ &=l(y_i,\hat{y}_i^{(t-1)})+g_if_t(x_i)+\frac{1}{2}h_if^2_t(x_i) \end{aligned}
l(yi,y^i(t))≈l(yi,y^i(t−1))+gi(y^i(t)−y^i(t−1))+21hi(y^i(t)−y^i(t−1))2=l(yi,y^i(t−1))+gift(xi)+21hift2(xi)
l
(
y
i
,
y
^
i
(
t
−
1
)
)
l(y_i,\hat{y}_i^{(t-1)})
l(yi,y^i(t−1))与
f
t
f_t
ft无关,于是,可以求解如下优化问题来近似原问题的解,
min f t L ~ ( t ) = ∑ i = 1 n [ g i f t ( x i ) + 1 2 h i f t 2 ( x i ) ] + Ω ( f t ) \min_{f_t}\quad \tilde{L}^{(t)}=\sum_{i=1}^n[g_if_t(x_i)+\frac{1}{2}h_if^2_t(x_i)]+\Omega(f_t) ftminL~(t)=i=1∑n[gift(xi)+21hift2(xi)]+Ω(ft)
这里 g i g_i gi、 h i h_i hi也与 f t f_t ft无关。
将
f
t
f_t
ft、
Ω
(
f
t
)
\Omega(f_t)
Ω(ft)写成树模型,即将下式带入目标函数,
f
t
(
x
)
=
w
q
(
x
)
,
Ω
(
f
t
)
=
γ
T
+
1
2
λ
∣
∣
w
∣
∣
2
f_t(x)=w_{q(x)},\quad \Omega(f_t)=\gamma T+\frac{1}{2}\lambda||w||^2
ft(x)=wq(x),Ω(ft)=γT+21λ∣∣w∣∣2
得到,
L
~
(
t
)
=
∑
i
=
1
n
[
g
i
f
t
(
x
i
)
+
1
2
h
i
f
t
2
(
x
i
)
]
+
Ω
(
f
t
)
=
∑
i
=
1
n
[
g
i
w
q
(
x
i
)
+
1
2
h
i
w
q
(
x
i
)
2
]
+
γ
T
+
1
2
λ
∑
j
=
1
T
w
j
2
\begin{aligned} \tilde{L}^{(t)}&=\sum_{i=1}^n[g_if_t(x_i)+\frac{1}{2}h_if^2_t(x_i)]+\Omega(f_t)\\ &=\sum_{i=1}^n[g_iw_{q(x_i)}+\frac{1}{2}h_iw^2_{q(x_i)}]+\gamma T+\frac{1}{2}\lambda\sum_{j=1}^Tw_j^2 \end{aligned}
L~(t)=i=1∑n[gift(xi)+21hift2(xi)]+Ω(ft)=i=1∑n[giwq(xi)+21hiwq(xi)2]+γT+21λj=1∑Twj2
可以看到,目标函数中第一个累加和是按照样本点累加,第二个累加和是按照叶结点累加。定义每个叶结点
j
j
j上的样本集合
I
j
=
{
i
∣
q
(
x
i
)
=
j
}
I_j=\{i|q(x_i)=j\}
Ij={i∣q(xi)=j},则对
x
i
∈
I
j
x_i\in I_j
xi∈Ij有
w
q
(
x
i
)
=
w
j
w_{q(x_i)}=w_j
wq(xi)=wj,且对样本点的遍历可以遍历叶子结点中的所有数据,即
∑
i
=
1
n
=
∑
j
=
1
T
∑
i
∈
I
j
\sum_{i=1}^n=\sum_{j=1}^T\sum_{i\in I_j}
∑i=1n=∑j=1T∑i∈Ij,因此,可以统一写成,
L
~
(
t
)
=
∑
j
=
1
T
[
(
∑
i
∈
I
j
g
i
)
w
j
+
1
2
(
∑
i
∈
I
j
h
i
+
λ
)
w
j
2
]
+
γ
T
=
∑
j
=
1
T
[
G
j
w
j
+
1
2
(
H
j
+
λ
)
w
j
2
]
+
γ
T
\begin{aligned} \tilde{L}^{(t)}&=\sum_{j=1}^T\left[(\sum_{i\in I_j}g_i)w_j+\frac{1}{2}(\sum_{i\in I_j}h_i+\lambda)w_j^2\right]+\gamma T\\ &=\sum_{j=1}^T\left[G_jw_j+\frac{1}{2}(H_j+\lambda)w_j^2\right]+\gamma T \end{aligned}
L~(t)=j=1∑T⎣⎡(i∈Ij∑gi)wj+21(i∈Ij∑hi+λ)wj2⎦⎤+γT=j=1∑T[Gjwj+21(Hj+λ)wj2]+γT
至此,优化问题转换为,
min q , w L ~ ( t ) = ∑ j = 1 T [ G j w j + 1 2 ( H j + λ ) w j 2 ] + γ T \min_{q,w}\quad \tilde{L}^{(t)}=\sum_{j=1}^T\left[G_jw_j+\frac{1}{2}(H_j+\lambda)w_j^2\right]+\gamma T q,wminL~(t)=j=1∑T[Gjwj+21(Hj+λ)wj2]+γT
这里 G j G_j Gj, H j H_j Hj与 q ( x ) q(x) q(x)有关。
当树的结构
q
(
x
)
q(x)
q(x)确定后,为使目标函数最小,令
∂
L
~
(
t
)
∂
w
j
=
G
j
+
(
H
j
+
λ
)
w
j
=
0
\frac{\partial \tilde{L}^{(t)}}{\partial w_j}=G_j+(H_j+\lambda)w_j=0
∂wj∂L~(t)=Gj+(Hj+λ)wj=0
解得第
j
j
j个叶结点的最优得分为,
w
j
∗
=
−
G
j
H
j
+
λ
w_j^*=-\frac{G_j}{H_j+\lambda}
wj∗=−Hj+λGj
此时最优目标函数值为,
L ~ q ∗ = − 1 2 ∑ j = 1 T G j 2 H j + λ + γ T \tilde{L}^*_q=-\frac{1}{2}\sum_{j=1}^T\frac{G_j^2}{H_j+\lambda}+\gamma T L~q∗=−21j=1∑THj+λGj2+γT
L ~ q ∗ \tilde{L}^*_q L~q∗只与树的结构有关,与叶结点的得分无关,并且它度量了树结构 q q q的好坏: L ~ q ∗ \tilde{L}^*_q L~q∗越小,树结构 q q q越好。 接下来就是要寻找最优的树结构 q ( x ) q(x) q(x)。
回归树的学习
策略一:暴力枚举(太复杂,不可行)
- 枚举每一个可能的树结构;
- 对每个树结构,找到使 L ~ q ∗ \tilde{L}^*_q L~q∗最小的树结构 q q q;
- 确定最优树结构后,计算最优的叶子结点得分 w j ∗ = − G j H j + λ w_j^*=-\frac{G_j}{H_j+\lambda} wj∗=−Hj+λGj
策略二:类似CART回归树的生成
现有树结构
q
(
x
)
q(x)
q(x),假设对其某个结点做切分,得到
L
L
L和
R
R
R两个叶结点,记新的树结构
q
′
q'
q′,则
g
a
i
n
=
L
~
q
∗
−
L
~
q
′
∗
=
1
2
[
G
L
2
H
L
+
λ
+
G
R
2
H
R
+
λ
−
(
G
L
+
G
R
)
2
H
L
+
H
R
+
λ
]
−
γ
gain=\tilde{L}^*_q-\tilde{L}^*_{q'}=\frac{1}{2}[\frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}]-\gamma
gain=L~q∗−L~q′∗=21[HL+λGL2+HR+λGR2−HL+HR+λ(GL+GR)2]−γ
若 L ~ q ∗ − L ~ q ′ ∗ > 0 \tilde{L}^*_q-\tilde{L}^*_{q'}>0 L~q∗−L~q′∗>0,则该叶结点切分后得到的树结构更好。通常需要指定一个阈值,当树结构改善程度大于某个数时,才进行切分。
我们得到了判断一个叶结点是否应该切分的标准,现在还需要寻找可能的切分点,一个切分点由切分特征及相应的切分值确定。
一种寻找切分点的方法是,遍历所有特征的所有可能的切分点,计算
g
a
i
n
gain
gain值,选取值最大的切分点去切分,称之为精确算法。
对于连续型特征值,当样本数量非常大,特征取值过多时,精确算法会花费很多时间,且容易过拟合。另一种思想是对特征进行分桶,即找到
l
l
l个划分点,将位于相邻分位点之间的样本分在一个桶中,在遍历该特征的时候,只需要遍历各个分位点,从而计算最优划分。从算法伪代码中该流程还可以分为两种,全局的近似是在新生成一棵树之前就对各个特征计算分位点并划分样本,之后在每次分裂过程中都采用近似划分,而局部近似就是在具体的某一次分裂节点的过程中采用近似算法。
XGBoost算法流程
比较RF、AdaBoost、GDBT、XGBoost
AdaBoost与GBDT
- Adaboost是通过提高错分样本的权重来定位模型的不足,采用指数损失,基分类器是最常见为决策树(深度为1)
- GBDT是通过负梯度来定位模型的不足,因此GBDT可以使用更多种类的损失函数
RF与GBDT
- 组成RF的树可以是分类树,也可以是回归树;而GBDT只由回归树组成,因为GBDT对所有树的结果累加,累加无法通过分类完成
- 组成RF的树并行生成;GBDT串行生成 ,GBDT更容易过拟合
- 输出结果,RF采用多数投票等;GBDT将所有结果累加,或加权累加
- RF对异常值不敏感,GBDT对异常值敏感
- RF对训练集一视同仁,每棵树分裂特征随机;GBDT基于权值的弱分类器的集成 ,前面的树优先分裂对大部分样本区分的特征,后分裂对小部分样本区分的特征
- RF通过减少模型方差提高性能,GBDT通过减少模型偏差提高性能(低方差和高偏差)
- RF参数主要是树的棵树,GBDT主要是树的深度,一般为1
XGBoost与GBDT
- GBDT以CART作为基分类器,XGBoost还支持线性分类器。可以通过booster[default=gbtree]设置参数:gbtree:tree-based models;gblinear:linear models,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)
- GBDT用到一阶导数信息,XGBoost对代价函数进行了二阶泰勒展开,同时用到一阶与二阶导数,支持自定义代价函数(二阶可导)
- XGBoost在代价函数中加入正则化项,控制模型复杂度,降低模型variance,模型更加简单,防止过拟合,正则项包含树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。代替剪枝
- 分裂结点处通过结构打分和分割损失动态生长。结构分数代替了回归树的误差平方和
- 新增shronkage和column subsampling,为了防止过拟合
- 对缺失值处理。对特征值有缺失的样本,XGBoost可以自动学习它的分裂方向
- XGBoost工具支持并行,可并行的近似直方图算法
- XGBoost的训练速度快于GBDT,10倍量级。
参考:
GBDT与XGBoost
算法原论文:XGBoost: A Scalable Tree Boosting System
PPT:XGBoost Slide