xgboost原理分析以及实践

最新推荐文章于 2024-08-17 11:24:13 发布

置顶

kingsam_

最新推荐文章于 2024-08-17 11:24:13 发布

阅读量2.5w

点赞数 100

分类专栏：机器学习理论学习机器学习文章标签： xgboost xgboost原理分 xgboost实践

本文链接：https://blog.csdn.net/qq_22238533/article/details/79477547

版权

摘要

本文在写完GBDT的三篇文章后本来就想写的，但一直没有时间，终于刚好碰上需要，有空来写这篇关于xgboost原理以及一些实践的东西（这里实践不是指给出代码然后跑结果，而是我们来手动算一算整个xgboost流程）

由于网上已经许多优秀的文章对xgboost原理进行了详细的介绍，特别是xgboost作者陈天奇的论文以及slide已经非常完整阐述了整个xgboost的来龙去脉，现有的文章基本也是参考了这两个资料。
但是却少涉及把原理对应到实际实现过程的文章，许多人看完原理之后可能对整个过程还是抱有好奇心，所以本文从另一个角度，原理到实际运行的角度来分析xgboost，相当于结合原理，仔细看看xgboost每一步到底计算了什么。

原理

当然，我们还是需要简要的回顾一下xgboost的整个推导过程，以及做一些铺垫，方便后面叙述。

我们知道，任何机器学习的问题都可以从目标函数(objective function)出发，目标函数的主要由两部分组成损失函数+正则项。

Obj(Θ)=L(Θ)+Ω(Θ) O b j ( Θ ) = L ( Θ ) + Ω ( Θ ) $\Large Obj(\Theta)=L(\Theta)+\Omega(\Theta)$
损失函数用于描述模型拟合数据的程度。
正则项用于控制模型的复杂度。

对于正则项，我们常用的L2正则和L1正则。

L1正则：

Ω(w)=λ||w||1 Ω ( w ) = λ | | w | | 1 $\Large \Omega(w)=\lambda||w||_1$
L2正则：

Ω(w)=λ||w||2 Ω ( w ) = λ | | w | | 2 $\Large \Omega(w)=\lambda||w||_2$

在这里，当我选择树模型为基学习器时，我们需要正则的对象，或者说需要控制复杂度的对象就是这 $K$ 颗树,通常树的参数有树的深度，叶子节点的个数，叶子节点值的取值（xgboost里称为权重weight)。

所以，我们的目标函数形式如下：

L (y_{i}, {\hat{y}}_{i}) + \sum_{k = 1}^{K} Ω (f_{k} (x_{i}))

$\Large L(y_i,\hat{y}_i)+\sum_{k=1}^K\Omega\left(f_k(x_i)\right)$

对一个目标函数，我们最理想的方法就选择一个优化方法算法去一步步的迭代的学习出参数。但是这里的参数是一颗颗的树，没有办法通过这种方式来学习。

既然如此，我们可以利用Boosting的思想来解决这个问题，我们把学习的过程分解成先学第一颗树，然后基于第一棵树学习第二颗树。也就是说：

ŷ 0i=常数 y ^ i 0 = 常数 $\Large \hat{y}_i^0=常数$

ŷ 1i=ŷ 0i+f1(xi) y ^ i 1 = y ^ i 0 + f 1 ( x i ) $\Large \hat{y}_i^1=\hat{y}_i^0+f_1(x_i)$

ŷ 2i=ŷ 1i+f2(xi) y ^ i 2 = y ^ i 1 + f 2 ( x i ) $\Large \hat{y}_i^2=\hat{y}_i^1+f_2(x_i)$

ŷ Ki=ŷ K−1i+fK(xi)(0) (0) y ^ i K = y ^ i K − 1 + f K ( x i ) $\Large \hat{y}_i^K=\hat{y}_i^{K-1}+f_K(x_i) \tag {0}$

所以，对于第K次的目标函数为：

ObjK=∑iL(yi,ŷ Ki)+Ω(fK)+constant O b j K = ∑ i L ( y i , y ^ i K ) + Ω ( f K ) + c o n s t a n t $Obj^K=\sum_iL(y_i,\hat{y}_i^K)+\Omega(f_K)+constant$

==>

ObjK=∑iL(yi,ŷ K−1i+fK(xi))+Ω(fK)+constant O b j K = ∑ i L ( y i , y ^ i K − 1 + f K ( x i ) ) + Ω ( f K ) + c o n s t a n t $Obj^K=\sum_iL\left(y_i,\hat{y}_i^{K-1}+f_K(x_i)\right)+\Omega(f_K)+constant$

上面的式子意义很明显，只需要寻找一颗合适的树 $f_K$ 使得目标函数最小。然后不断的迭代K次就可以完成K个学习器的训练。

那么我们这颗树到底怎么找呢？
在GBDT里面（当然GBDT没有正则），我们的树是通过拟合上一颗树的负梯度值，建树的时候采用的启发式准则。具体参考文章。

然而，在xgboost里面，它是通过对损失函数进行泰勒展开。
（其思想主要来自于文章：Additive logistic regression a statistical view of boosting也是Friedman大牛的作品）

二阶泰勒展开：
$f(x+\Delta x)=f(x)+f'(x)\Delta x+\frac{1}{2}f''(x){\Delta x}^2$

对损失函数二阶泰勒展开：
$\sum_iL\left(y_i,\hat{y}_i^{K-1}+f_K(x_i)\right)=\sum_i\left[L(y_i,\hat{y}_i^{K-1})+L'(y_i,\hat{y}_i^{K-1})f_K(x_i)+\frac{1}{2}L''(y_i,\hat{y}_i^{K-1})f_K^2(x_i)\right]$