XGBoost论文阅读

最新推荐文章于 2023-04-24 16:35:26 发布

shen A007

最新推荐文章于 2023-04-24 16:35:26 发布

阅读量226

点赞数 1

分类专栏：自然语言处理文章标签：机器学习算法

本文链接：https://blog.csdn.net/weixin_42204397/article/details/105660276

版权

自然语言处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. Main Work

1.1Tree Boosting with Loss function

假设给定一个数据集 $D$ 中有 $n$ 个样本，每个样本有 $m$ 维特征，通过训练数据集 $D$ ，我们得到 $k$ 棵树。这 $k$ 棵树累加的值就是我们的预测值。
$\widehat{y}_i=\sum_{k=1}^kf_k(x_i)\qquad f_k\in\mathcal{F}$
其中 $f_k(x_i)$ 表示第 $k$ 棵树预测 $x_i$ ， $\mathcal{F}$ 表示树的集合
目标函数：
$obj=\sum_{i=1}^nl(y_i,\widehat{y}_i)+\sum_{k=1}^k\Omega(f_k)$

$l(y_i,\widehat{y}_i)$ 是损失函数，根据具体的问题，损失函数可以做不同的设定，回归是MSE，分类是交叉熵。 $\Omega(f_k)$ 是树的复杂度，也是正则项，减少过拟合。
$\Omega(f_k)=\gamma T+ \lambda\sum_{i=1}^Tw_j^2$
$T$ 表示叶节点的个数， $w_j^2$ 表示叶节点的值。

1.2Gradient Tree Boosting

对于损失函数我们可以将它预测值展开层 $k$ 棵树的预测值叠加的形式，在 $t$ 次迭代中，我们可以将树展开成：
$y_i=\sum_{k=1}^tf_k(x_i)=f_1(x_i)+f_2(x_i)+...+f_{t-1}(x_i)+f_t(x_i)$
但我们训练第 $k$ 棵树的时候
$obj=\sum_{i=1}^nl(y_i,\widehat{y}_i^{(k-1)}+f_k(x_i))+\sum_{i=1}^{k-1}\Omega(f_i)+\Omega(f_k)$
去除已知项，则 $o b j$ ：
$obj=\sum_{i=1}^nl(y_i,\widehat{y}_i^{(k-1)}+f_k(x_i))+\Omega(f_k)$
对上式进行二阶泰勒展开得到如下近似目标函数：
$obj_k \approx \sum_{i=1}^n[l(y_i, \widehat{y}_i^{(k-1)})+\partial_{\widehat{y}^{(k-1)}}l(y_i, \widehat{y}_i^{(k-1)})f_k(x_i)+\frac{1}{2}\partial_{\widehat{y}^{(k-1)}}^2l(y_i, \widehat{y}_i^{(k-1)})f_k^2(x_i)]+\Omega(f_k) \\ = \sum_{i=1}^n[l(y_i, \widehat{y}_i^{(k-1)})+g_if_k(x_i)+\frac{1}{2}h_if_k^2(x_i)]+\Omega(f_k)$
当前模型已知，也就是当前模型对训练数据的误差已知，为常量，对目标函数的优化没有影响，移除得到如下的目标函数：
$obj_k = \sum_{i=1}^n[g_if_k(x_i)+\frac{1}{2}h_if_k^2(x_i)]+\gamma T+ \lambda\sum_{i=1}^Tw_j^2 \\ = \sum_{j=1}^T[( \sum_{i \in I_j}g_i)w_j+\frac{1}{2}( \sum_{i \in I_j}h_i+\lambda)w_j^2]+\gamma T$
对 $w_j$ 这个二元一次函数取最小值，所以：
$w_j^*=\frac{\sum_{i \in I_j}g_i}{ \sum_{i \in I_j}h_i+\lambda}$
$obj^*=-\frac{1}{2} \sum_{j=1}^T \frac{ (\sum_{i \in I_j}g_i)^2}{\sum_{i \in I_j}h_i+\lambda}+\gamma T$
此时已知一棵树的形状的时候，就能够求出这棵树对应的 $w_j$ 和 $obj_k$ ,一个方法是把所有可能的树的形状全列出来，分别计算 $obj_k^{(i)}$ 。选择最小的那个 $obj_k$ 返回对应的树形状。但是这么做存在一个问题，就是随着数据的增大，确定树的个数是指数级上升的，存在巨大的计算量。所以文章下面的部分就是考虑如何分裂树结构。选择合适的feature作为分割点，将数据分割到两边，用 $obj_k^{old}-obj_k^{new}$ 的最大值的那个特征作为split的条件：
$Obj_{split}=\frac{1}{2}\bigg[\frac{(\sum_{i \in I_L}g_i)^2}{\sum_{i \in I_L}h_i+\lambda}+\frac{(\sum_{i \in I_R}g_i)^2}{\sum_{i \in I_R}h_i+\lambda}-\frac{(\sum_{i \in I}g_i)^2}{\sum_{i \in I}h_i+\lambda}\bigg]-\gamma$
在这里插入图片描述

2.split finding algorithms

2.1exact greedy algorithm

exact greedy algorithm是一种切分点查找算法，如Algorithm 1所示。该算法对于每一个feature，试图枚举出所有可能的切分点，并计算在每一个切分点上的增益，从而选择增益最好的切分点。在algorithm1中要枚举出所有的可能的切分点，算法是首先对所有训练数据对feature k的取值进行排序，这样就能轻易地枚举出所有的切分点。
在这里插入图片描述

2.2Approximate Algorithm

exact greedy algorithm很强大，但当训练数据量太大以至于无法完全读进内存或者运行在分布式计算资源上，就有问题了。所以论文总结了一种approximate algorithm, 如algorithm 2
在这里插入图片描述
algorithm2针对feature k先是根据特征分布的percentile列出了L个待选切分点（candidate splitting point），切分点值的集合 $S_k$ ，之后根据 $Obj_{split}$ 公式分别计算这些待选切分点的增益，选择增益最好的切分点。根据feature k大小不同——是在训练的一开始就对全部训练数据的feature k列出待选切分点还是对分到某个结点上的训练数据的feature k，approximate algorithm有两种变体——global、local.