XGBoost论文原理公式推导

最新推荐文章于 2022-11-21 15:11:16 发布

贰锤

最新推荐文章于 2022-11-21 15:11:16 发布

阅读量380

点赞数

本文链接：https://blog.csdn.net/weixin_37895339/article/details/83894826

版权

目标函数

$Obj(\Theta) = L(\Theta) + \Omega(\Theta)$
其中 $L(\Theta)$ 为损失（误差）函数， $\Omega(\Theta)$ 为正则化项。

模型

$Obj(\Theta) = \sum_{i=0}^nl(y_i,\hat y_i) + \sum_{k=1}^K\Omega(f_k)\\ \hat y_i^t=\sum_{k=1}^tf_k(x_i)=\hat y_i^{t-1} + f_t(x_i)$
前向加法模型

学习算法

第t步只学习 $f_t$ ，则目标优化函数可写为
$Obj(\Theta) = \sum_{i=0}^nl(y_i,\hat y_i^{t-1}+f_t(x_i)) + \Omega(f_t) + constant$

泰勒展开：
$f(x+\Delta x) \approx f(x) + f'(x)\Delta x + \frac{1}{2}f''(x)\Delta x^2$
定义：
$g_i=\frac{\partial l(y_i,\hat y^{t-1})}{\partial \hat y^{t-1}}\\ h_i=\frac{\partial^2 l(y_i,\hat y^{t-1})}{\partial (\hat y^{t-1})^2}$
则目标方程可以写为
$Obj^t=\sum_{i=1}^n[l(y_i,\hat y_i^{t-1}) + g_if_t(x_i) + \frac{1}{2}h_if_i^2(x_i)] + \Omega(f_t) + constant$
将常数项去除，只留下与优化变量有关的项，其只依赖于每个数据点在误差函数上的一阶导数和二阶导数。
$\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_i^2(x_i)] + \Omega(f_t)$

树结构

$f_t$ 可以看作是一个树结构，其叶子结构用q表示 $q:R^d\to {1,2,...,T}$ ， $\omega_i$ 为叶子节点 $i$ 对应的值。

定义树结构的复杂度如下，即正则化项：
$\Omega(f_t) = \gamma T + \frac{1}{2}\lambda\sum_{j=1}^T\omega^2_j$

核心算法

定义 $I_j=\{i|q(x_i)=j\}$ 表示属于叶子 $j$ 的样本点
$Obj^t \approx \sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] + \Omega(f_t)\\ =\sum_{i=1}^n[g_i\omega_{q(x_i)}+\frac{1}{2}h_i\omega^2_{q(x_i)}] + \gamma T + \frac{1}{2}\lambda\sum_{j=1}^T\omega^2_j\\ =\sum_{j=1}^T[(\sum_{i\in I_j} g_i)\omega_j + \frac{1}{2}(\sum_{i\in I_j}h_i+\lambda)\omega^2_j] + \gamma T$
可以定义 $G_j = \sum_{i\in I_j}g_i$ ， $H_j = \sum_{i\in I_j}h_i$ ，目标函数可以进一步写为如下函数，假设我们已知树的结构 $q$ ，我们可以通过这个目标函数来求解最好的 $\omega$
$Obj^t = \sum_{i=1}^2[(\sum_{i\in I_j} g_i)\omega_j + \frac{1}{2}(\sum_{i\in I_j}h_i+\lambda)\omega^2_j] + \gamma T\\ =\sum_{j=1}^T[G_j\omega_j + \frac{1}{2}(H_j + \lambda)\omega_j^2] + \gamma T$
如上是一个求一维二次函数最小值问题，（ $x^*=-\frac{b}{2a}$ ）
$w*_j=-\frac{G_j}{H_j+\lambda}\\ Obj = -\frac{1}{2}\sum_{j=1}^T\frac{G_j^2}{H_j+\lambda} + \gamma T$
如上Obj越小，代表这个树结构越好。我们可以将其理解为基尼指数或信息增益。因此可以枚举出所有可能的树结构，然后用上述Obj评价指标去选择一颗最好的树，但是这样不可行，所以采用贪心法，在已有叶子节点的基础上尝试添加一个叶节点，观察是否可以获取最大收益，增益公式如下
$\frac{1}{2}[\frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda} - \frac{(G_L+G_R)^2}{H_L+H_R+\lambda}] - \gamma$
如上式右边共四项，分别为左子树分数，右子树分数，不分割可以拿到的分数，加入一个新的叶子节点引入的复杂度代价。
我们可以枚举所有的特征与所有的可分割点，以此尝试选出最大增益Gain的可分割特征与分割点。但是由于引入正则化项，所以不一定构建一个新的叶子节点就一定会优于原树。