XGBoost原理和公式推导

最新推荐文章于 2024-01-14 20:51:58 发布

道墟散人

最新推荐文章于 2024-01-14 20:51:58 发布

阅读量856

点赞数 2

分类专栏： machine learning

本文链接：https://blog.csdn.net/qq_36767053/article/details/104611284

版权

machine learning 专栏收录该内容

36 篇文章 1 订阅

订阅专栏

XGBoost的模型： $\hat{y_i}=\sum_{k=1}^{K}f_k(x_i)$
其中 $f_k \in F$ ， $F=f(x)=w_{q(x)}$ ，每个 $f_{k}$ 对应于一个独立的树结构 $q$ 和叶子权重 $w$ 。 $w_{i}$ 代表第 $i$ 个结点的分数， $w_{q(x)}$ 是对样本 $x$ 的打分，即模型预测值。

目标（损失）函数：
$L=\sum_{i=1}^{n}l(\hat{y_i},y_i)+\sum_{k=1}^{T}\Omega (f_k)$ 其中， $\Omega (f)=\gamma T+\frac{\lambda}{2} {\left\| w \right\|}^2$ ，T是树中叶子节点的个数，该项中包含了两个部分，一个是叶子结点的总数，一个是叶子结点得到的 $L_2$ 正则化项。这个额外的正则化项能够平滑每个叶节点的学习权重来避免过拟合。目标函数中前一项为损失函数，后一项为正则化项，表示所有树的复杂度之和。

类似于GBDT算法，XGBoost同样使用加法模型，第 $t$ 步的预测值为： $\hat{y}_i^{(t)}=\hat{y}_i^{(t-1)}+f_t(x_i)$
第 $t$ 步的损失为：
$L^{(t)}=\sum_{i=1}^{n}l(y_i,\hat{y}_i^{(t-1)}+f_t(x_i))+\Omega(f_t)$
对损失函数使用二阶泰勒近似展开，类似于：
$f(x+\Delta x) \simeq f(x)+f'(x) \Delta x + f''(x) \Delta x^2$
损失函数变换为：
$L^{(t)} \simeq \sum_{i=1}^{n}[l(y_i,\hat{y}_i^{(t-1)})+g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)]+\Omega(f_t)$
其中， $g_i= \partial_{\hat{y}^{(t-1)}}l(y_i,\hat{y}^{(t-1)}),h_i= \partial^2_{\hat{y}^{(t-1)}}l(y_i,\hat{y}^{(t-1)})$ 。

移除常数项：
$\hat{L}^{(t)}=\sum_{i=1}^{n}(g_if_t(x_i)+ \frac{1}{2}h_i f_t^2(x_i))+\Omega(f_t)$

定义 $I_j=\left \{ i|q(x_i) =j\right \}$ 表示叶子节点 $j$ 中的样本集合。
$\hat{L}^{(t)}=\sum_{j=1}^{T}[(\sum_{i \in I_j} g_i) w_j+ \frac{1}{2}(\sum_{i \in I_j} h_i+ \lambda )w_j^2] + \gamma T$
对 $w$ 求导得叶子节点 $j$ 最优 $w_j^*$ ：
$\sum_{i\in I_j}g_i+w_j(\sum_{i \in I_j}h_i+\lambda) = 0$
$w_j^*=-\frac{\sum_{i \in I_j}g_i}{\sum_{i \in I_j}h_i+\lambda}$
带入目标函数求得损失的最优值：
$\hat{L}^{{t}}(q)=-\frac{1}{2}\sum_{j=1}^{T}\frac{(\sum_{i \in I_j}g_i)^2}{\sum_{i \in I_j}h_i+\lambda}+\gamma T$
划分节点后的损失减少为：
$L_{split}=\frac{1}{2}(\frac{(\sum_{i \in I_L}g_i)^2}{\sum_{i \in I_L}h_i+\lambda} + \frac{(\sum_{i \in I_R}g_i)^2}{\sum_{i \in I_R}h_i+\lambda} - \frac{(\sum_{i \in I}g_i)^2}{\sum_{i \in I}h_i+\lambda})$
其中， $I=I_l+I_R$ 。

论文原文：
Chen, T., & Guestrin, C. (2016, August). Xgboost: A scalable tree boosting system. In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining (pp. 785-794).