XGBoost推导

最新推荐文章于 2021-12-06 11:22:08 发布

Turtlelin007

最新推荐文章于 2021-12-06 11:22:08 发布

阅读量318

点赞数 1

分类专栏： MachineLearning 文章标签： XGBoost

本文链接：https://blog.csdn.net/weixin_37142859/article/details/97023387

版权

MachineLearning 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

XGBoost推导

XGBoost推导

目标

目标：我们希望学习一个既准确又简单的模型来实现预测
因此目标函数可以定为：
$\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}\right)+\sum_{k} \Omega\left(f_{k}\right), f_{k} \in \mathcal{F}$
由于我们使用的是树模型,而不是权重向量，因此无法使用SGD算法来找到函数 $f$ 。但是可以使用Additive Training（Boosting）加性训练的方式来找到函数 $f$ .

Additive Training(Boosting)

从一个常数预测开始，每一轮训练增加一个新的函数
$\begin{array}{l}{\hat{y}_{i}^{(0)}=0} \\ {\hat{y}_{i}^{(1)}=f_{1}\left(x_{i}\right)=\hat{y}_{i}^{(0)}+f_{1}\left(x_{i}\right)} \\ {\hat{y}_{i}^{(2)}=f_{1}\left(x_{i}\right)+f_{2}\left(x_{i}\right)=\hat{y}_{i}^{(1)}+f_{2}\left(x_{i}\right)} \\ {\hat{y}_{i}^{(t)}=\sum_{k=1}^{t} f_{k}\left(x_{i}\right)=\hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right)}\end{array}$

如何决定新加入的函数

由目标函数决定！
在第 $t$ 轮训练中， $\hat{y}_{i}^{(t)}=\hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right)$
因此目标函数可写成：
$\begin{aligned} O b j^{(t)} &=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(t)}\right)+\sum_{i=1}^{t} \Omega\left(f_{i}\right) \\ & = \sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right)\right)+\Omega\left(f_{t}\right)+\text { constant } \end{aligned}$

由于前 $t - 1$ 轮的模型已确定，因此其复杂度是确定，所以 $\sum_{t=1}^{t-1}\Omega(f_t) = constant$

将目标函数泰勒展开

泰勒展开式
一维：
$f(x+\Delta x) \simeq f(x)+f^{\prime}(x) \Delta x+\frac{1}{2} f^{\prime \prime}(x) \Delta x^{2}$
二维：
$y+\Delta y) \simeq f(x,y) + \frac{\partial f(x,y)}{\partial y} \Delta y + \frac{1}{2}\frac{\partial ^2 f(x, y)}{\partial y^2}\Delta y^2$

记 $g_{i}=\partial_{\hat{y}^{(t-1)}} l\left(y_{i}, \hat{y}^{(t-1)}\right), \quad h_{i}=\partial_{\hat{y}^{(t-1)}}^{2} l\left(y_{i}, \hat{y}^{(t-1)}\right)$ ,目标函数为:
$j^{(t)} \simeq \sum_{i=1}^{n}\left[l\left(y_{i}, \hat{y}_{i}^{(t-1)}\right)+g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\Omega\left(f_{t}\right)+ constant$

移除常数项后，目标函数为：
$\sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\Omega\left(f_{t}\right)$

定义树的复杂度

将样本到叶子节点分数的映射关系表示成：
$f_t(x) = w_{q(x)}\\ q(x) \in {1,2,...,T}$

$w$ 是叶子节点的权重, $T$ 为叶子节点总个数

定义树的复杂度为:
$\Omega(f_t) = \gamma T + \frac{1}{2}\lambda \sum_{j=1}^{T}w_j^2$

目标函数求解

现按照样本所属的叶子节点划分样本子集， $I_j = \left \{ i | q(x_i)=j \right \}$ ,属于同一个叶子节点的归为一类，共有 $T$ 类。

$\begin{aligned} O b j^{(t)} & \simeq \sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\Omega\left(f_{t}\right) \\ &=\sum_{i=1}^{n}\left[g_{i} w_{q\left(x_{i}\right)}+\frac{1}{2} h_{i} w_{q\left(x_{i}\right)}^{2}\right]+\gamma T+\lambda \frac{1}{2} \sum_{j=1}^{T} w_{j}^{2} \\ &=\sum_{j=1}^{T}\left[\left(\sum_{i \in I_{j}} g_{i}\right) w_{j}+\frac{1}{2}\left(\sum_{i \in I_{j}} h_{i}+\lambda\right) w_{j}^{2}\right]+\gamma T \end{aligned}$

记 $G_{j}=\sum_{i \in I_{j}} g_{i} , H_{j}=\sum_{i \in I_{j}} h_{i}$

则目标函数简化成
$\begin{aligned} O b j^{(t)} &=\sum_{j=1}^{T}\left[\left(\sum_{i \in I_{j}} g_{i}\right) w_{j}+\frac{1}{2}\left(\sum_{i \in I_{j}} h_{i}+\lambda\right) w_{j}^{2}\right]+\gamma T \\ &=\sum_{j=1}^{T}\left[G_{j} w_{j}+\frac{1}{2}\left(H_{j}+\lambda\right) w_{j}^{2}\right]+\gamma T \end{aligned}$

对 $w_j$ 来说是一个一元二次函数，当
$w_j^* = - \frac{G_j}{2 \times \frac{1}{2}(H_j+\lambda)} = \frac{G_j}{H_j + \lambda}$
目标函数取得最小值：
$\begin{aligned} Obj^{(t)} &= \sum_{j=1}^T[-\frac{G_j ^ 2}{4 \cdot\frac{1}{2} (H_j+\lambda)}] + \gamma T \\ &= -\frac{1}{2} \sum_{j=1}^{T} \frac{G_j^2}{H_j + \lambda} + \gamma T \end{aligned}$

树的生成

从根结点（所有数据在同一个结点中），深度为0开始
对每一个叶子结点，尝试将其分裂成两个叶子结点，分裂后目标函数值的变化如下：
$n=\frac{1}{2}\left[\frac{G_{L}^{2}}{H_{L}+\lambda}+\frac{G_{R}^{2}}{H_{R}+\lambda}-\frac{\left(G_{L}+G_{R}\right)^{2}}{H_{L}+H_{R}+\lambda}\right]-\gamma$
一直分裂直至不满足分裂条件为止

如何找到最优分裂特征

对每一个特征，将其特征值排序
尝试使用每一个特征值进行划分
选出所有特征所有特征值中增益最大的作为分类依据

剪枝和正则

增益不能为负。训练损失和树的复杂度得到平衡
$n=\frac{G_{L}^{2}}{H_{L}+\lambda}+\frac{G_{R}^{2}}{H_{R}+\lambda}-\frac{\left(G_{L}+G_{R}\right)^{2}}{H_{L}+H_{R}+\lambda}-\gamma$
提前停止。当最优分裂的增益值为负时，停止生长。（但可能这一次分裂有利于后续分裂）
设定最大深度，修剪所有增益为负的叶子结点

XGBoost算法步骤

在每一轮中，新建一棵空树 $f_t(x)$
计算每个叶子节点中每个样本的一阶梯度和二阶梯度值
$g_{i}=\partial_{\hat{y}^{(t-1)}} l\left(y_{i}, \hat{y}^{(t-1)}\right), \quad h_{i}=\partial_{\hat{y}^{(t-1)}}^{2} l\left(y_{i}, \hat{y}^{(t-1)}\right)$
计算不同特征不同特征值作为分裂依据时的增益
$n=\frac{G_{L}^{2}}{H_{L}+\lambda}+\frac{G_{R}^{2}}{H_{R}+\lambda}-\frac{\left(G_{L}+G_{R}\right)^{2}}{H_{L}+H_{R}+\lambda}-\gamma$
不断地生长树，直至不满足分裂条件
将这一轮的树 $f_t(x)$ 添加到模型中
$y^{(t)}=y^{(t-1)}+\epsilon f_{t}\left(x_{i}\right)$