xgboost算法推导

最新推荐文章于 2022-08-21 14:21:13 发布

置顶 HxShine

最新推荐文章于 2022-08-21 14:21:13 发布

阅读量317

点赞数

分类专栏：算法机器学习

本文链接：https://blog.csdn.net/qq_16949707/article/details/95940002

版权

算法同时被 2 个专栏收录

35 篇文章 0 订阅

订阅专栏

机器学习

21 篇文章 0 订阅

订阅专栏

1.推导思路

目标函数
目标函数泰勒展开
合并正则项(遍历样本到遍历页节点)
目标函数最小值(求导为0)得到参数的解

2.详细推导

2.1 目标函数

$l^{t}=\sum_{i=1}^{N}l(y^{t},y)+\gamma T + \lambda \sum_{j=1}^{T}w_{j} = \sum_{i=1}^{N}[l(y^{t-1},y)+f(x)]+\gamma T + \lambda \sum_{j=1}^{T}w_{j}$

2.1 目标函数泰勒展开

泰勒公式二阶导数展开
$f(x+\Delta x) = f(x)+f‘(x)\Delta x+\frac {1}{2}f``(x)\Delta x$
目标函数泰勒展开
把 $l(y^{t-1},y)$ 作为 $f (x)$ ,新增的树结构 $f (x)$ 作为 $\Delta x$ ,这样2.1就可以转化为:
$\sum_{i=1}^{N}[l(y^{t-1},y)+f(x)]+\gamma T + \lambda \frac {1}{2}\sum_{j=1}^{T}w^2_{j}+constant$
$=\sum_{i=1}^{N}[l(y^{t-1}_{i},y_{i})+\frac {\Delta l(y^{t-1}_{i},y_{i})}{\Delta x_{i}}f(x)+\frac {1}{2}\frac {\Delta ^{2}l(y^{t-1}_{i},y_{i})}{\Delta ^{2}x_{i}}f^2(x)]+\gamma T + \frac {1}{2}\lambda \sum_{j=1}^{T}w^2_{j}$
$=\sum_{i=1}^{N}[g(x)f(x)+\frac {1}{2}h(x)f^2(x)]+\gamma T + \frac {1}{2}\lambda \sum_{j=1}^{T}w^2_{j}+constant$
$=\sum_{i=1}^{N}[g(x_i)w_{i}(x_i)+\frac {1}{2}h(x_i)w^2_{i}(x_i)]+\gamma T + \frac {1}{2}\lambda \sum_{j=1}^{T}w^2_{j}+constant$
其中 $l(y^{t-1}_{i},y_{i})$ 在前 $t - 1$ 颗树结构已知的情况下，是一个常量， $\frac {\Delta l(y^{t-1}_{i},y_{i})}{\Delta x_{i}}$ 为一阶导数，用 $g (x)$ 表示， $\frac {\Delta ^{2}l(y^{t-1}_{i},y_{i})}{\Delta ^{2}x_{i}}$ 为二阶导数，用 $h (x)$ 表示。

2.2 合并正则项(遍历样本到遍历页节点)

上式中， $N$ 代表样本个数， $T$ 代表叶子节点的个数，一个叶子节点可能可以分配到多个样本：
$I_{j} = (i|q(x_i)=j)$
那么可以利用该公式将上式合并:
$=\sum_{i=1}^{N}[g(x_i)w_{i}(x_i)+\frac {1}{2}h(x_i)w^2_{i}(x_i)]+\gamma T +\frac {1}{2}\lambda \sum_{j=1}^{T}w^2_{j}+constant$
$=\sum_{j=1}^{T}[\sum_{x_i\subset I_j} g(x_i)w_{j}+\frac {1}{2}\sum_{x_i\subset I_j} h(x_i)w^2_{j}]+\gamma T + \frac {1}{2}\lambda \sum_{j=1}^{T}w_{j}+constant$
$=\sum_{j=1}^{T}[Gw_{j}+\frac {1}{2}Hw^2_{j}]+\gamma T + \frac {1}{2}\lambda \sum_{j=1}^{T}w^2_{j}+constant$

2.3 目标函数最小值(求导为0)得到参数的解

$G+Hw_j+\lambda w_j = 0$
$w_j = -\frac {G}{H+\lambda}$

3 工程实现

是一个点一个点分裂得到树的结构，每次分裂树需要进行下面工作：

#1 计算每个节点的obj
#2 选择最优节点分裂
#3 算法复杂度:O(k*d*n*log n),n为样本个数,d为特征，k为深度，n*logn是因为要排序，来选择最优节点，所以对于不需要排序的特征，例如类别特征，需要onehot编码，因为其不需要排序。

4 参数

4.1 随机性

eta ：学习率？learning rate?
subsample 样本抽取比例
colsample_bytree，列的抽取率
max_delta_step:???

4.2 复杂度

max_depth
min_child_weight，节点权重小于该值，不继续分裂了
gamma？？
alpha和lambda：目标函数中正则化系数

4.3 其他参数

booster:gbtree,gbline,dart三种模式
nthread 并行线程数，默认最大
sketch_eps？？
scale_pos_weight二分类问题时，正负样本？？
详细可以参考下面两个：
1.https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
2.https://zhuanlan.zhihu.com/p/27111288

5 总结

作用
这样就得到了新增树的权重的解，这个解与每个叶子节点的一阶导和二阶导有关，这个在树结构确定的情况下是已知的，这样，每确定一次树的结构，可以算出一个似然函数的值，通过比较似然函数，可以得到最优的树结构。
xgboost优点
很简单，就是将似然函数用泰勒公式展开，然后加了一个正则项，再求似然函数的最小值。

6 参考资料

1.https://www.zhihu.com/question/58883125/answer/206813653
2.wepon：http://wepon.me/files/gbdt.pdf

HxShine

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
xgboost算法推导

1.推导思路目标函数目标函数泰勒展开合并正则项(遍历样本到遍历页节点)目标函数最小值(求导为0)得到参数的解2.详细推导2.1 目标函数lt=∑i=1Nl(yt,y)+γT+λ∑j=1Twj=∑i=1N[l(yt−1,y)+f(x)]+γT+λ∑j=1Twjl^{t}=\sum_{i=1}^{N}l(y^{t},y)+\gamma T + \lambda \sum_{j=1}^...
复制链接

扫一扫