『Gradient Boosting 』LightGBM与XGBoost对比

LightGBM和XGBoost都是GBDT的高效实现,所以先简单介绍下GBDT。

1. Gradient Boosting Decision Tree

提升树的学习优化过程中,损失函数平方损失和指数损失时候,每一步优化相对简单,但对于一般损失函数优化的问题,Freidman提出了Gradient Boosting算法,其利用了损失函数的负梯度在当前模型的值
− [ ∂ L ( y , f ( x i ) ) ∂ f ( x i ) ] f ( x ) = f m − 1 ( x ) -[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)} [f(xi)L(y,f(xi))]f(x)=fm1(x)
作为回归问题提升树算法的残差近似值,去拟合一个回归树。

1.1 函数空间的数值优化

优化目标是使得损失函数最小,(N是样本集合大小):
F ∗ ( x ) = arg ⁡ min ⁡ ρ ∑ i = 1 N L ( y i , ρ ) F^*(x)=\underset{\rho}{\arg\min}\sum^N_{i=1}\mathcal{L}(y_i, \rho) F(x)=ρargmini=1NL(yi,ρ)
GBDT是一个加法模型: f m ( x ) f_m(x) fm(x)是每一次迭代学习的到树模型。
F ^ ( x ) = F M ( x ) = ∑ m = 1 M f m ( x ) \hat{F}(x) = F_M(x) = \sum\limits_{m=1}^M f_m(x) F^(x)=FM(x)=m=1Mfm(x)
对于其每一步迭代:
f m ( x ) = − ρ m g m ( x ) f_m(x) = -\rho_m g_m(x) fm(x)=ρmgm(x)
其中
g m ( x ) = [ ∂ ϕ ( F ( x ) ) ∂ F ( x ) ] F ( x ) = F m − 1 ( x ) ϕ ( F ( x ) ) = E y [ L ( y , F ( x ) ) ∣ x ] , F m − 1 ( x ) = ∑ i = 0 m − 1 f i ( x ) g_m(x) = [\frac{\partial \phi(F(x))}{\partial F(x)}]_{F(x) = F_{m-1}(x)} \\ \phi(F(x)) = E_y[L(y,F(x))|x], F_{m-1}(x) = \sum_{i=0}^{m-1} f_i(x) gm(x)=[F(x)ϕ(F(x))]F(x)=Fm1(x)ϕ(F(x))=Ey[L(y,F(x))x],Fm1(x)=i=0m1fi(x)
其实 L ( y , F ( x ) ) L(y, F(x)) L(y,F(x))就是损失函数, ϕ ( F ( x ) ) \phi(F(x)) ϕ(F(x))是当前x下的损失期望, g m ( x ) g_m(x) gm(x)是当前x下的函数梯度。最终 f m ( x ) f_m(x) fm(x)学习的是损失函数在函数空间上的负梯度。

对于权重 ρ m \rho_m ρm通过线性搜索求解(这也是后面算法改进的点):
ρ m = arg ⁡ min ⁡ ρ E y , x L ( y , F m − 1 ( x ) − ρ ∗ g m ( x ) ) \rho_m = \arg \min_{\rho} E_{y,x} L(y, F_{m-1}(x) - \rho *g_m(x)) ρm=argρminEy,xL(y,Fm1(x)ρgm(x))
理解:每一次迭代可以看做是采用梯度下降法对最优分类器 F ∗ ( x ) F^*(x) F(x)的逐渐比较,每一次学习的模型 f m ( x ) f_m(x) fm(x)是梯度,进过M步迭代之后,最后加出来的模型就是最优分类器的一个逼近模型,所以 f m ( x i ) f_m(x_i) fm(xi)使用单步修正方向 − g m ( x i ) -g_m(x_i) gm(xi)
− g m ( x i ) = g m ( x ) = [ ∂ L ( F ( x ) ) ∂ F ( x ) ] F ( x ) = F m − 1 ( x ) -g_m(x_i) = g_m(x) = [\frac{\partial L(F(x))}{\partial F(x)}]_{F(x) = F_{m-1}(x)} gm(xi)=gm(x)=[F(x)L(F(x))]F(x)=Fm1(x)
这里的梯度变量是函数,是在函数空间上求解(这也是后面XGBoost改进的点),注意以往算法梯度下降是在N维的参数空间的负梯度方向,变量是参数。这里的变量是函数,更新函数通过当前函数的负梯度方向来修正模型,是它更优,最后累加的模型近似最优函数。

1.2算法描述

输入:训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋅ ⋅ ⋅ , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),···,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)},$ x_i \in \chi = R^n , , y_i \in \gamma={-1,+1}, \ i=1,2,···,N $;

输出:回归树 f M ( x ) f_M(x) fM(x)

  1. 初始化

    f 0 ( x ) = a r g min ⁡ c ∑ i = 1 N L ( y i , c ) f_0(x) = arg \min\limits_c \sum\limits_{i=1}^N L(y_i,c) f0(x)=argcmini=1NL(yi,c)

  2. 对m=1,2,…M

    1. 对i=1,2,…,N,计算

      r m i = − [ ∂ L ( y , f ( x i ) ) ∂ f ( x i ) ] f ( x ) = f m − 1 ( x ) r_{mi}= -[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)} rmi=[f(xi)L(y,f(xi))]f(x)=fm1(x)

    2. r m i r_{mi} rmi拟合一颗回归树,得到第m棵树的叶结点区域 R m j ,   j = 1 , 2 , . . . J R_{mj}, \ j=1,2,...J Rmj, j=1,2,...J,即一棵由J个叶子节点组成的树。

    3. j = 1 , 2 , . . . J j=1,2,...J j=1,2,...J,计算

      c m j = a r g min ⁡ c ∑ x i ∈ R m j L ( y i , f m − 1 ( x i ) + c ) c_{mj}=arg \min\limits_c \sum\limits_{x_i \in R_{mj} } L(y_i, f_{m-1}(x_i) + c) cmj=argcminxiRmjL(yi,fm1(xi)+c)

      2.2,2.3这一步相当于回归树递归在遍历所有切分变量j和切分点s找到最优j,s,然后在每个节点区域求最优的c。参考回归树生成算法

    4. 更新 f m ( x ) = f m − 1 ( x ) + ∑ j = 1 J c m j I ( x ∈ R m j ) f_m(x)=f_{m-1}(x) + \sum\limits_{j=1}^J c_{mj} I(x \in R_{mj}) fm(x)=fm1(x)+j=1JcmjI(xRmj)

  3. 得到回归树

    f ^ ( x ) = f M ( x ) = ∑ m = 1 M f m ( x ) = ∑ m = 1 M ∑ j = 1 J c m j I ( x ∈ R m j ) \hat{f}(x) = f_M(x) = \sum\limits_{m=1}^M f_m(x) = \sum\limits_{m=1}^M \sum\limits_{j=1}^J c_{mj}I(x \in R_{mj}) f^(x)=fM(x)=m=1Mfm(x)=m=1Mj=1JcmjI(xRmj)

在回归树生成时,建树选择分裂点必须要遍历所有数据在每个特征的每个切分点的值,如果是连续特征就计算复杂度非常大,也是GBDT训练主要耗时所在。所以在这一点也是XGBoost和LightGBM改进的地方。

具体算法算理:GBDT原理-Gradient Boosting Decision Tree

2 XGBoost原理

XGBoost是GBDT的改进和重要实现,主要在于:

  1. 提出稀疏感知(sparsity-aware)算法。
  2. 加权分位数快速近似数学习算法。
  3. 缓存访问模式,数据压缩和分片上的实现上的改进。
  4. 加入了Shrinkage和列采样,一定程度上防止过拟合。

2.1 Tree Boosting

首先XGBoost也是一个加法模型,首先其在目标函数中加入了正则化项:
L ( ϕ ) = ∑ i ℓ ( y ^ i , y i ) + ∑ k Ω ( f k ) Ω ( f ) = γ T + 1 2 λ ∥ w ∥ 2 (2) \mathcal{L}(\phi)=\sum_i\ell(\hat{y}_i,y_i)+\sum_k\Omega(f_k)\\ \Omega(f)=\gamma T+\frac{1}{2}\lambda\|w\|^2 \tag{2} L(ϕ)=i(y^i,yi)+kΩ(fk)Ω(f)=γT+21λw2(2)

泰勒级数 ∑ n = 0 ∞ f ( n ) ( a ) n ! ( x − a ) a \sum_{n=0}^\infty \frac{f^{(n)} (a)}{n!} (x-a)^a n=0n!f(n)(a)(xa)a

方程2不能再欧式空间上用传统方法优化,而是通过迭代获得最优解。 y ^ i ( t ) \hat{y}_i^{(t)} y^i(t)是第i个实例在第t次迭代的预测值,需要加入 f t f_t ft来最小化以下目标
L ( ϕ ) = ∑ i ℓ ( y i , y ^ i ( t − 1 ) + f t ( X i ) ) + ∑ k Ω ( f k ) \mathcal{L}(\phi)=\sum_i\ell(y_i, \hat{y}_i^{(t-1) }+ f_t(X_i))+\sum_k\Omega(f_k) L(ϕ)=i(yi,y^i(t1)+ft(Xi))+kΩ(fk)
通过泰勒二阶展开近似来快速优化目标函数(泰勒级数 ∑ n = 0 ∞ f ( n ) ( a ) n ! ( x − a ) a \sum_{n=0}^\infty \frac{f^{(n)} (a)}{n!} (x-a)^a n=0n!f(n)(a)(xa)a)):
L ( ϕ ) ≃ ∑ i [ ℓ ( y i , y ^ i ( t − 1 ) ) + g i f t ( X i ) + 1 2 h i f t 2 ( x i ) ] + ∑ k Ω ( f k ) \mathcal{L}(\phi) \simeq \sum_i [\ell(y_i, \hat{y}_i^{(t-1) }) + g_if_t(X_i) + \frac1 2 h_i f_t^2(x_i) ]+\sum_k\Omega(f_k) L(ϕ)i[(yi,y^i(t1))+gift(Xi)+21hift2(xi)]+kΩ(fk)
其中 , g i = ∂ y t − 1 l ( y i , y ^ t − 1 ) , h i = ∂ y t − 1 2 l ( y i , y ^ t − 1 ) ,g_i = \partial_{y^{t-1}} l(y_i, \hat{y}^{t-1}),h_i = \partial^2_{y^{t-1}} l(y_i, \hat{y}^{t-1}) gi=yt1l(yi,y^t1)hi=yt12l(yi,y^t1)即l的一阶和二阶导数。移除常数项得到:
L ~ ( ϕ ) = ∑ i [ g i f t ( X i ) + 1 2 h i f t 2 ( x i ) ] + ∑ k Ω ( f k ) (3) \tilde{\mathcal{L}}(\phi) = \sum_i [ g_if_t(X_i) + \frac1 2 h_i f_t^2(x_i) ]+\sum_k\Omega(f_k) \tag{3} L~(ϕ)=i[gift(Xi)+21hift2(xi)]+kΩ(fk)(3)
定义 I j = { i ∣ q ( x i ) = j } I_j = \{ i|q(x_i) = j \} Ij={iq(xi)=j}作为叶子结点j的实例集合。将方程3展开为:
L ~ ( ϕ ) = ∑ i [ g i f t ( X i ) + 1 2 h i f t 2 ( x i ) ] + γ T + 1 2 λ ∑ j = 1 T w j 2 = ∑ j = 1 T [ ( ∑ i ∈ I j g i ) w j + 1 2 ( ∑ i ∈ I j h i + λ ) w j 2 ] + γ T (4) \tilde{\mathcal{L}}(\phi) = \sum_i [ g_if_t(X_i) + \frac1 2 h_i f_t^2(x_i) ]+ \gamma T + \frac 12 \lambda \sum_{j=1}^T w_j^2 \\ = \sum_{j=1}^T [(\sum_{i \in I_j} g_i)w_j + \frac12 (\sum_{i\in I_j}h_i + \lambda)w_j^2] + \gamma T \tag{4} L~(ϕ)=i[gift(Xi)+21hift2(xi)]+γT+21λj=1Twj2=j=1T[(iIjgi)wj+21(iIjhi+λ)wj2]+γT(4)
计算权重公式:
w j ∗ = − ∑ i ∈ i j g i ∑ i ∈ I j h i + λ (5) w_j^* = -\frac{\sum_{i\in i_j} g_i}{\sum_{i\in I_j} h_i + \lambda} \tag{5} wj=iIjhi+λiijgi(5)
带入方程4目标函数得(一阶和二阶导数合并成了一项):
L ~ ( t ) ( q ) = − 1 2 ∑ j = 1 T ( ∑ i ∈ I j g i ) 2 ∑ i ∈ I j h i + λ + γ T (6) \tilde{\mathcal{L}}^{(t)} (q)= -\frac12 \sum_{j=1}^T\frac{(\sum_{i \in I_j} g_i)^2}{\sum_{i \in I_j} h_i + \lambda} + \gamma T \tag{6} L~(t)(q)=21j=1TiIjhi+λ(iIjgi)2+γT(6)
这一项算出的值就是第t棵树要优化目标函数,使其尽量小。下图展示计算过程(图中Obj少了一个-1/2,我就是这么较真),目标函数越小越好。

在这里插入图片描述

枚举所有可能结构的树是不可能的,通过贪心算法从叶节点开始迭代得添加分支, I L , I R I_L,I_R IL,IR分别是分割点左右分支的实例集,分割的损失下降定义为:
L = 1 2 [ ( ∑ i ∈ I g i ) 2 ∑ i ∈ I L h i + λ + ( ∑ i ∈ I g i ) 2 ∑ i ∈ I R h i + λ − ( ∑ i ∈ I g i ) 2 ∑ i ∈ I h i + λ ] − λ (7) \mathcal{L} = \frac12[\frac{(\sum_{i \in I} g_i)^2}{\sum_{i \in I_L} h_i +\lambda} + \frac{(\sum_{i \in I} g_i)^2}{\sum_{i \in I_R} h_i +\lambda} - \frac{(\sum_{i \in I} g_i)^2}{\sum_{i \in I} h_i +\lambda}] - \lambda \tag{7} L=21[iILhi+λ(iIgi)2+iIRhi+λ(iIgi)2iIhi+λ(iIgi)2]λ(7)
为什么是这个呢,很简单,就是方程6在分割前后的差值。

2.2 Weighted Quantile Sketch-加权分位

近似算法通过特征百分位点作为划分候选。使集合 D k = { ( x 1 k , h 1 ) , ( x 2 k , h 2 ) , . . . ( x n k , h n ) } \mathcal{D}_k = \{(x_{1k}, h_1), (x_{2k}, h_2),...(x_{nk}, h_n) \} Dk={(x1k,h1),(x2k,h2),...(xnk,hn)}代表样本点的第k个特征值和二阶导数。定义排序函数:
r k ( z ) = 1 ∑ ( x , h ) ∈ D k h ∑ ( x , h ) ∈ D k , x < z h (8) r_k(z) = \frac 1{\sum_{(x,h) \in D_k} h} \sum_{(x,h) \in D_k, x<z} h \tag{8} rk(z)=(x,h)Dkh1(x,h)Dk,x<zh(8)
方程8表示特征值小于z的样本占整体的比例。目标是找到候选切分点 { s k 1 , s k 2 , . . . s k l , } \{s_{k1}, s_{k2},... s_{kl}, \} {sk1,sk2,...skl,}使得:
∣ r k ( s k , j ) − r k ( s k , j + 1 ) ∣ < ϵ , s k 1 = min ⁡ i x i k , s k l = max ⁡ i x i k (9) |r_k(s_{k,j)}- r_k(s_{k,j+1)}| < \epsilon, s_{k1} = \min_i x_{ik}, s_{kl} = \max_{i} x_{ik} \tag{9} rk(sk,j)rk(sk,j+1)<ϵ,sk1=iminxik,skl=imaxxik(9)
其中 ϵ \epsilon ϵ是近似因子,这意味着有 1 / ϵ 1/\epsilon 1/ϵ个候选点,每个数据点权重是 h i h_i hi,方程3说明为什么用它做权重。
∑ i = 1 n 1 2 h i ( f t ( x i ) − g i / h i ) 2 + Ω ( f t ) + c o n s t a n t , \sum_{i=1}^n \frac12 h_i(f_t(x_i) - g_i/h_i)^2 + \Omega(f_t) + constant, i=1n21hi(ft(xi)gi/hi)2+Ω(ft)+constant,
其中 h i h_i hi即为平方损失的权重,对于大数据集,找到满足条件的候选分裂是非常重要的。以前的分位算法中没有权重,因为加权数据集没有分位数。

为了解决这个问题,XGBoost提出了新颖的分布式加权的分位数算法,作者理论证明它可以处理加权的数据。总的思路是提出一个支持合并和修剪操作的数据结构,每个操作都被证明保持一定的准确性水平。 证明见xgboost-supp.pdf

2.3 Sparsity-aware Split Finding

真实数据很多都是稀疏的数据,有很多原因:1.数据中有缺失值。2.统计中频繁出现0条目。3.人工特征工程造成,例如one-hot。为了算法稀疏感知,XGBoost每个树节点加入了默认方向,如图:

在这里插入图片描述

当数据值缺失的时候,样本被划分到默认方向,默认方向是通过学习数据获得的,其算法如下图Alg.3,关键提升在于只看不缺失的实例进入 I k I_k Ik,所提出的算法将不存在作为缺失值处理,并学习处理缺失值的最佳方向。 通过将枚举限制为恒定的解决方案,当不存在对应于用户指定的值时,也可以应用相同的算法。

大多数现有的树学习算法或者只是针对密集数据进行优化,或者需要特定的程序来处理有限的情况,如分类编码。 XGBoost以统一的方式处理所有的稀疏模式。 更重要的是,作者的方法利用稀疏性使计算复杂度与输入中非缺失条目的数量成线性关系。 图5显示了稀疏感知和对Allstate-10K数据集(的简单实现的比较。 作者发现稀疏感知算法的运行速度比原始版本快50倍。 这证实了稀疏感知算法的重要性。

具体算法原理见:XGBoost原理-XGBoost A Scalable Tree Boosting System

3 lightGBM

LightGBM提出两种新方法:Gradient-based One-Side Sampling (GOSS) 和Exclusive Feature Bundling (EFB)(基于梯度的one-side采样和互斥的特征捆绑)

3.1 Gradient-based One-Side Sampling

针对数量大,GOSS保留所有的梯度较大的实例,在梯度小的实例上使用随机采样。为了抵消对数据分布的影响,计算信息增益的时候,GOSS对小梯度的数据引入常量乘数。GOSS首先根据数据的梯度绝对值排序,选取top a个实例。然后在剩余的数据中随机采样b个实例。接着计算信息增益时为采样出的小梯度数据乘以(1-a)/b,这样算法就会更关注训练不足的实例,而不会过多改变原数据集的分布。

在GOSS中,

  1. 首先根据数据的梯度将训练降序排序。
  2. 保留top a个数据实例,作为数据子集A。
  3. 对于剩下的数据的实例,随机采样获得大小为b的数据子集B。
  4. 最后我们通过以下方程估计信息增益:

V ~ j ( d ) = 1 n ( ( ∑ x i ∈ A : x i j ≤ d g i + 1 − a b ∑ x i ∈ B : x i j ≤ d g i ) 2 n j l ( d ) + ( ∑ x i ∈ A : x i j > d g i + 1 − a b ∑ x i ∈ B : x i j > d g i ) 2 n r j ( d ) ) (1) \tilde{V}_j (d) = \frac{1}{n} ( \frac{ ( \sum_{ {x_i \in A: x_{ij} \le d } } g_i + \frac{1-a}{b}\sum_{ {x_i \in B: x_{ij} \le d } } g_i )^2 }{n^j{l}(d)} + \frac{ ( \sum_{ {x_i \in A: x{ij} > d } } g_i + \frac{1-a}{b}\sum_{ {x_i \in B: x{ij} > d } } g_i )^2 }{n^j_{r}(d)} ) \tag{1} V~j(d)=n1(njl(d)(xiA:xijdgi+b1axiB:xijdgi)2+nrj(d)(xiA:xij>dgi+b1axiB:xij>dgi)2)(1)

此处GOSS通过较小的数据集估计信息增益 V ~ j ( d ) \tilde{V}{j}(d) V~j(d),将大大地减小计算量。更重要的的,理论表明GOSS不会丢失许多训练精度。

3.2 Exclusive Feature Bundling

针对特征维度高,而高维的数据通常是稀疏的,能否设计一种无损地方法来减少特征的维度。特别的,稀疏特征空间中,许多特征是互斥的,例如他们从不同时为非零值。我们可以绑定互斥的特征为单一特征,通过仔细设计特征臊面算法,作者从特征捆绑中构建了与单个特征相同的特征直方图。这种方式的间直方图时间复杂度从O(#data * #feature)降到O(#data * #bundle),由于#bundle << # feature,我们能够极大地加速GBDT的训练过程而且损失精度。

有两个问题:

  1. 怎么判定那些特征应该绑在一起(build bundled)?
  2. 怎么把特征绑为一个(merge feature)?

3.2.1 bundle(什么样的特征被绑定)?

**理论 4.1:**将特征分割为较小量的互斥特征群是NP难的。

证明:将图着色问题归约为此问题,而图着色是NP难的,所以此问题就是NP难的。

给定图着色实例G=(V, E)。以G的关联矩阵的每一行为特征,得到我们问题的一个实例有|V|个特征。 很容易看到,在我们的问题中,一个独特的特征包与一组具有相同颜色的顶点相对应,反之亦然。

算法:基于上面的讨论,设计了算法3,伪代码见下图,具体算法:

  1. 建立一个图,每个边有权重,其权重和特征之间总体冲突相关。
  2. 按照降序排列图中的度数来排序特征。
  3. 检查每个排序之后的每个特征,这个特征绑定到使得冲突最小的绑定,或者建立一个新的绑定。

为了继续提高效率,LightGBM提出了一个更加高效的无图的排序策略:将特征按照非零值个数排序,这和使用图节点的度排序相似,因为更多的非零值通常会导致冲突,新算法在算法3基础上改变了排序策略。

3.2.2 merging features(特征合并)

通过将互斥特征放在不同的箱中来构建bundle。这可以通过将偏移量添加到特征原始值中实现,例如,假设bundle中有两个特征,原始特征A取值[0, 10],B取值[0, 20]。我们添加偏移量10到B中,因此B取值[10, 30]。通过这种做法,就可以安全地将A、B特征合并,使用一个取值[0, 30]的特征取代AB。算法见上图算法4。

EFB算法能够将许多互斥的特征变为低维稠密的特征,就能够有效的避免不必要0值特征的计算。实际,通过用表记录数据中的非零值,来忽略零值特征,达到优化基础的直方图算法。通过扫描表中的数据,建直方图的时间复杂度将从O(#data)降到O(#non_zero_data)。

CSDN原文:https://blog.csdn.net/shine19930820/article/details/79274875

LightGBM原理-LightGBM: A Highly Efficient Gradient Boosting Decision Tree

Reference

  1. GBDT原理-Gradient Boosting Decision Tree
  2. XGBoost原理-XGBoost A Scalable Tree Boosting System
  3. LightGBM原理-LightGBM: A Highly Efficient Gradient Boosting Decision Tree
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百川AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值