XGBoost原理

最新推荐文章于 2024-02-29 21:45:00 发布

o0Helloworld0o

最新推荐文章于 2024-02-29 21:45:00 发布

阅读量242

点赞数

分类专栏：高级机器学习

本文链接：https://blog.csdn.net/o0Helloworld0o/article/details/80900428

版权

高级机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

【第3页】Elements in Supervised Learning

设 $x_i$ 为第 $i$ 个训练样本

Linear Model通过线型变换 $\begin{aligned}\hat{y}_i=\sum_{j}w_jx_{ij}\end{aligned}$ ，得到输出值 $\hat{y}_i\in \mathbb{R}$

Tree Model通过一个比较抽象且复杂的变换（决策树） $\hat{y}_i=f(x_i)$ ，将输入 $x_i$ 映射到输出值 $\hat{y}_i\in \mathbb{R}$

对于回归问题，直接将输出值 $\hat{y}_i$ 作为预测值，即 $y_i^\text{pred}=\hat{y}_i$

对于二分类问题，需要将 $\hat{y}_i$ 变换到 $[0, 1]$ 范围内才能作为预测值，即
$\begin{aligned}y_i^\text{pred}=\text{sigmoid}(\hat{y}_i)=1/\left ( 1+\exp(-\hat{y}_i) \right )\end{aligned}$

【第4页】Elements continued：Objective Function

回归问题常用Square Loss： $l(y_i,\hat{y}_i)=(y_i-\hat{y}_i)^2$

二分类问题常用Logistic Loss： $\begin{aligned}l(y_i,\hat{y}_i)=y_i\ln(1+e^{-\hat{y}_i})+(1-y_i)\ln(1+e^{\hat{y}_i})\end{aligned}$ ，此处的 $\hat{y}_i$ 相当于 $z$

推导如下
$\begin{aligned}l(y_i,\hat{y}_i) &= -y_i\ln y_i^\text{pred}-(1-y_i)\ln(1-y_i^\text{pred})（交叉熵定义）\\ &=y_i\ln\frac{1}{y_i^\text{pred}}+(1-y_i)\ln\frac{1}{1-y_i^\text{pred}}（负号放到\ln里面）\\ &=y_i\ln(1+e^{\hat{y}_i})+(1-y_i)\ln(1+e^{\hat{y}_i})（代入y_i^\text{pred}=1/(1+\exp(-\hat{y}_i))）\end{aligned}$

【第21页】Additive Training

设训练集为 $\left \{ x_i, y_i \right \}_{i=1}^n$

假设我们已经迭代了 $t-1$ 轮，对于训练样本 $x_i$ ，前 $t-1$ 轮迭代得到的模型（包含 $t-1$ 棵树 $f_1, f_2, …, f_{t-1}$ ）已经为我们提供了一个预测值 $\begin{aligned}\hat{y}_i^{(t-1)}=\sum_\limits{k=1}^{t-1}f_k(x_i)\end{aligned}$

因此第 $t$ 轮迭代的目标是，学习一棵新的树模型 $f_t$ ，使得第 $t$ 轮的目标函数 $Obj^{(t)}$ 最小

第 $t$ 轮的预测值为 $\hat{y}_i^{(t)}=\hat{y}_i^{(t-1)}+f_t(x_i)$

第 $t$ 轮的目标函数 $Obj^{(t)}$ 定义如下
$\begin{aligned} Obj^{(t)} &= \sum_{i=1}^{n}l\left ( y_i,\hat{y}_i^{(t)} \right )+\sum_{i=1}^{t}\Omega(f_i) \\ &= \sum_{i=1}^{n}l\left (y_i,\hat{y}_i^{(t-1)}+f_t(x_i)\right )+\Omega(f_t)+\sum_{i=1}^{t-1}\Omega(f_i) \end{aligned}$

上式中 $\left \{ f_i \right \}_{i=1}^{t-1}$ 和 $\hat{y}_i^{(t-1)}$ 均为在前 $t-1$ 轮迭代中已经确定下来的常量，因此令 $\begin{aligned}\text{constant}=\sum_\limits{i=1}^{t-1}\Omega(f_i)\end{aligned}$ ，则
$\begin{aligned}Obj^{(t)}=\sum_\limits{i=1}^{n}l\left ( y_i,\hat{y}_i^{(t-1)}+f_t(x_i) \right )+\Omega(f_t)+\mathrm{constant}\end{aligned}$

值得注意的是，在 $Obj^{(t)}$ 中，对于 $n$ 个样本的loss仅仅做了求和而没有求平均

【第22页】Taylor Expansion Approximation of Loss

回顾二阶泰勒展开： $\begin{aligned}f(x+\Delta x)\approx f(x)+f'(x)\Delta x+\frac{1}{2}f''(x){\Delta x}^2\end{aligned}$

考虑对loss项 $l\left ( y_i,\hat{y}_i^{(t-1)}+f_t(x_i) \right )$ 使用泰勒展开，通常情况下， $f_t(x_i)$ 是一个微小的量，正好对应泰勒展开中的 $\Delta x$
于是可得
$\begin{aligned}Obj^{(t)} \approx \sum_\limits{i=1}^{n}\left [ l\left ( y_i,\hat{y}_i^{(t-1)} \right ) + g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i) \right ] + \Omega(f_t) + \text{constant}\end{aligned}$

其中 $\begin{aligned}g_i=\partial_{\hat{y}_i^{(t-1)}} \ l\left ( y_i,\hat{y}_i^{(t-1)} \right )\end{aligned}$ ， $\begin{aligned}h_i=\partial_{\hat{y}_i^{(t-1)}}^2 \ l\left (y_i,\hat{y}_i^{(t-1)}\right )\end{aligned}$

【第23页】Our New Goal

在 $Obj^{(t)}$ 中 $l\left (y_i,\hat{y}_i^{(t-1)}\right )$ ， $g_i$ ， $h_i$ 均为已经确定下来的常量，只有 $f_t$ 是变量，因此去掉所有常量项后，第 $t$ 轮的目标函数 $Obj^{(t)}$ 为

$\begin{aligned}Obj^{(t)} = \sum_\limits{i=1}^{n}\left [ g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i) \right ] + \Omega(f_t)\end{aligned}$

Reminder： $g_i$ 就是将第 $i$ 个样本在前 $t-1$ 轮得到的预测值 $\hat{y}_i^{(t-1)}$ 以及真实值 $y_i$ 代入loss的一阶导数 $\partial_{\hat{y}_i}l\left ( y_i,\hat{y}_i \right )$ 得到的值，属于常量，体现了gradient boosting中的gradient，即利用loss funtion对上一轮的预测值的梯度，指导本轮的学习

【第24页】Refine the definition of tree，详细定义树模型的参数

树模型 $y=f(x)$ ，输入一个 $d$ 维的样本 $x \in \mathbb{R}^d$ ，输出一个实数 $y \in \mathbb{R}$

设树的叶节点个数为 $T$ ，定义一棵树需要指定以下两部分

$q: \mathbb{R}^d \rightarrow \left \{ 1, 2, ..., T \right \}$
$q$ 是一个映射函数，表示将 $d$ 维的样本分配到 $T$ 个叶节点中的某一个，在PPT中被称为树的结构（The structure of the tree）
$w \in \mathbb{R}^T$
$w$ 是一个 $T$ 维向量，对应 $T$ 个叶节点的输出值，在PPT中被称为叶节点的权重（The leaf weight of the tree）

于是，参数化的树模型的数学表达为 $y=f(x)=w_{q(x)}$ ，即首先将样本 $x$ 分配到第 $q(x)$ 个叶节点，然后使用该叶节点的权重 $w_{q(x)}$ ，作为模型的输出 $y$

【第25页】Define Complexity of a Tree，详细定义树模型的复杂度

树的复杂度定义如下
$\begin{aligned}\Omega(f)=\gamma T+\frac{1}{2}\lambda\sum_\limits{j=1}^{T}w_j^2\end{aligned}$
复杂度包含两部分，一部分是叶节点的个数 $T$ ，另一部分是叶节点权重 $w$ 的L2范数

【第26页】Revisit the Objectives

下面开始讨论在第 $t$ 轮迭代时，如何构造一棵最优的树 $f_t$ ，使得目标函数 $Obj^{(t)}$ 最小

首先提出第一个问题：假设树 $f_t$ 的结构 $q(x)$ 已经确定，叶节点个数 $T$ 也随之确定下来，只剩下 $w$ 为变量，如何求出最优的叶节点权重 $w$ ，使得目标函数 $Obj^{(t)}$ 最小

我们不妨将 $f_t(x_i)$ 和 $\Omega(f_t)$ 的具体定义代入，然后对式子做一些变形
$\begin{aligned} Obj^{(t)} &= \sum_{i=1}^{n}\left ( g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i) \right ) + \Omega(f_t) \\ &= \sum_{i=1}^{n}\left ( g_iw_{q(x_i)} + \frac{1}{2}h_iw_{q(x_i)}^2 \right ) + \gamma T+\frac{1}{2}\lambda\sum_{j=1}^{T}w_j^2\end{aligned}$

定义在训练集的 $n$ 个样本中，被分配到第 $j$ 个叶节点的所有样本的下标构成一个集合 $\begin{aligned}I_j=\left \{ i|q(x_i)=j \right \}\end{aligned}$
于是我们可以将 $n$ 个样本划分为 $T$ 个子集 $I_1, I_2, ..., I_T$ ，从而将一重求和符号 $\begin{aligned}\sum_\limits{i=1}^{n}\end{aligned}$ 变为二重求和符号 $\begin{aligned}\sum_\limits{j=1}^{T} \sum_\limits{i\in I_j}\end{aligned}$ ，这一步变形在PPT中称为Regroup the objective by each leaf
$\begin{aligned} Obj^{(t)} &= \sum_{i=1}^{n}\left ( g_iw_{q(x_i)} + \frac{1}{2}h_iw_{q(x_i)}^2 \right ) + \gamma T + \frac{1}{2}\lambda\sum_{j=1}^{T}w_j^2 \\ &= \sum_{j=1}^{T}\left [ \left ( \sum_{i\in I_j}g_i \right )w_j + \frac{1}{2}\left ( \sum_{i\in I_j}h_i \right )w_j^2 \right ] + \gamma T + \frac{1}{2}\lambda\sum_{j=1}^{T}w_j^2 \\ &= \sum_{j=1}^{T}\left [ \left ( \sum_{i\in I_j}g_i \right )w_j + \frac{1}{2}\left ( \sum_{i\in I_j}h_i + \lambda \right )w_j^2 \right ] + \gamma T \end{aligned}$
从上述推导中我们可以看到，参数 $\lambda$ 之前加了一个 $\frac{1}{2}$ ，恰好和 $\begin{aligned}\frac{1}{2}h_iw_{q(x_i)}^2\end{aligned}$ 中的 $\frac{1}{2}$ 合并到括号内

到此为止，除去常量项 $\gamma T$ （因为我们之前假设树 $f_t$ 的结构 $q(x)$ 已经确定），目标函数 $Obj^{(t)}$ 可以看作 $T$ 个相互独立的二次函数之和（变量为 $w_1, w_2, \cdots, w_T$ ）
$j=1$ 时， $\begin{aligned}\left ( \sum_\limits{i\in I_1}g_i \right )w_1 + \frac{1}{2}\left ( \sum_\limits{i\in I_1}h_i + \lambda \right )w_1^2\end{aligned}$
$j=2时$ ， $\begin{aligned}\left ( \sum_\limits{i\in I_2}g_i \right )w_2 + \frac{1}{2}\left ( \sum_\limits{i\in I_2}h_i + \lambda \right )w_2^2\end{aligned}$
……
$j=T时$ ， $\begin{aligned}\left ( \sum_\limits{i\in I_T}g_i \right )w_T + \frac{1}{2}\left ( \sum_\limits{i\in I_T}h_i + \lambda \right )w_T^2\end{aligned}$

【第27-28页】
定义 $\begin{aligned}G_j=\sum_\limits{i\in I_j}g_i\end{aligned}$ ， $\begin{aligned}H_j=\sum_\limits{i\in I_j}h_i\end{aligned}$ ，仅仅是为了简化公式中的符号
$\begin{aligned} Obj^{(t)} &= \sum_{j=1}^{T}\left [ \left ( \sum_{i\in I_j}g_i \right )w_j + \frac{1}{2}\left ( \sum_{i\in I_j}h_i + \lambda \right )w_j^2 \right ] + \gamma T \\ &= \sum_{j=1}^{T}\left ( G_jw_j + \frac{1}{2}\left ( H_j + \lambda \right )w_j^2 \right ) + \gamma T \end{aligned}$

Reminder： $G_j$ 为落到第 $j$ 个叶节点的所有样本的一阶梯度之和，后续的讨论中也会出现字母 $G$ （没有下标），表示属于某个节点的所有样本的一阶梯度之和

以第 $1$ 个叶节点为例，我们需要找到最优的 $w_1^*$ ，使得 $\begin{aligned}G_1w_1 + \frac{1}{2}\left ( H_1 + \lambda \right )w_1^2\end{aligned}$ 最小

这是一个求二元函数最小值的问题（初中数学知识），我们知道对于二次函数 $f(x)=ax^2+bx+c$ ，当 $a>0$ 时， $x$ 在 $\begin{aligned}-\frac{b}{2a}\end{aligned}$ 处取得最小值

因此当 $H_1+\lambda>0$ 时， $\begin{aligned}w_1^*=-\frac{G_1}{H_1+\lambda}\end{aligned}$

注： $H_1+\lambda>0$ 是否成立，是由具体的loss决定的，至于哪些loss的二阶导数为正，PPT中没有详细讨论

下面列举了常见的Loss的梯度

Square Loss
$\begin{aligned}l\left ( y_i,\hat{y}_i \right )=\left ( y_i-\hat{y}_i \right )^2\end{aligned}$

$\begin{aligned}\partial_{\hat{y}_i}l\left ( y_i,\hat{y}_i \right )=2\left ( \hat{y}_i-y_i \right )\end{aligned}$ ， $\begin{aligned}\partial_{\hat{y}_i}^2 l\left ( y_i,\hat{y}_i \right )=2\end{aligned}$

Logistic Loss
$\begin{aligned}l\left ( y_i,\hat{y}_i \right )=y_i\ln\left ( 1+e^{-\hat{y}_i} \right )+(1-y_i)\ln\left ( 1+e^{\hat{y}_i} \right )\end{aligned}$

$\begin{aligned}\partial_{\hat{y}_i}l\left ( y_i,\hat{y}_i \right )=\mathrm{sigmoid}\left ( \hat{y}_i \right )-y_i\end{aligned}$ ， $\begin{aligned}\partial_{\hat{y}_i}^2 l\left ( y_i,\hat{y}_i \right )=\mathrm{sigmoid}\left ( \hat{y}_i \right )\left ( 1-\mathrm{sigmoid}\left ( \hat{y}_i \right ) \right )\end{aligned}$

结论：Square Loss和Logistic Loss的二阶导数均为正

到此为止，对于第一个问题：首先假设树 $f_t$ 的结构 $q(x)$ 已经确定，叶节点个数 $T$ 也随之确定下来，只剩下 $w$ 为变量，如何求出最优的叶节点权重 $w$ ，使得目标函数 $Obj^{(t)}$ 最小

我们已经得出了答案：树 $f_t$ 的结构 $q(x)$ 已经确定，那么使得目标函数 $Obj^{(t)}$ 最小的叶节点权重 $w^*$ 由公式 $\begin{aligned}w_j^*=-\frac{G_j}{H_j+\lambda}\end{aligned}$ 直接计算得到，则 $Obj^{(t)}的最小值为$
$\begin{aligned}Obj=-\frac{1}{2}\sum_\limits{j=1}^{T}\frac{G_j^2}{H_j+\lambda}+\gamma T\end{aligned}$

此时，若把树 $f_t$ 的结构 $q(x)$ 看作变量，则 $I_j$ 和 $T$ 由 $q(x)$ 决定也是变量， $G_j$ 和 $H_j$ 由 $I_j$ 决定也是变量，那么这个式子就可以看作对树结构 $q(x)$ 的损失评分，好的树结构应该使这个损失尽可能小，这个评价树结构好坏的score称为structure score（PPT原文：This measures how good a tree structure is! The smaller the score is, the better the structure is.）

【第29-30页】
现在提出第二个问题，在使用 $\begin{aligned}Obj=-\frac{1}{2}\sum_\limits{j=1}^{T}\frac{G_j^2}{H_j+\lambda}+\gamma T\end{aligned}$ 作为损失评分的前提下，怎样找到最好的树结构 $q(x)$ ，使得 $Obj$ 最小

穷举法：树的结构有无穷多个，因此无法穷举
Greedy Learning：考虑每一个叶节点，尝试分裂该叶节点，并计算分裂前后 $Obj$ 降低了多少，视为分裂的收益，由此判断分裂该叶节点是否划算（相当于预剪枝）
贪心的思想体现在对于当前节点，仅考虑最好的分裂节点，这种每个节点都贪心的做法学习到的树结构有可能不是最优的，但接近于最优

Greedy的思想体现在对于当前节点，仅考虑最好的分裂节点，这种每个节点都贪心的做法学习到的树结构有可能不是最优的，但接近于最优

具体地，对于某个叶节点，属于该叶节点的样本的梯度之和为 $G, H$ ，现在尝试将它分裂为左右两个叶节点，分裂后属于左叶节点的样本的梯度之和为 $G_L, H_L$ ，属于左叶节点的样本的梯度之和为 $G_R, H_R$ ，并且满足条件 $G=G_L+G_R, H=H_L+H_R$

分裂前， $\begin{aligned}Obj_1=-\frac{1}{2}\frac{G^2}{H+\lambda}+\gamma\end{aligned}$

分裂后， $\begin{aligned}Obj_2=-\frac{1}{2}\frac{G_L^2}{H_L+\lambda}+\gamma-\frac{1}{2}\frac{G_R^2}{H_R+\lambda}+\gamma\end{aligned}$

分裂的收益， $\begin{aligned}Gain=Obj_1-Obj_2=\frac{1}{2}\left ( \frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{G^2}{H+\lambda} \right )-\gamma\end{aligned}$

分裂的收益 $Gain$ 表示经过分裂使得 $Obj$ 降低了多少， $Gain$ 越大越好

来自wepon的注解：这个公式形式上跟ID3算法（采用entropy计算增益）、CART算法（采用gini指数计算增益）是一致的，都是用分裂后的某个值减去分裂前的某个值，从而得到增益

注：此处体现了XGBoost参数gamma所描述的作用：minimum loss reduction required to make a further partition on a leaf node of the tree. The larger, the more conservative the algorithm will be.

因为对于某个给定的 $\gamma$ ，一次分裂必须使得 $\begin{aligned}\frac{1}{2}\left ( \frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{G^2}{H+\lambda} \right )>\gamma\end{aligned}$ ，才能使得 $Gain$ 为正，所以说gamma控制了节点分裂的最小loss reduction，可以看作进行了预剪枝

分裂条件具体的表达形式为：属性 $>$ 属性值（取 $>$ 或 < <script type="math/tex" id="MathJax-Element-11433"><</script>号仅仅是左右叶节点互换的区别），于是我们想要在一个叶节点上找到最优的分裂条件，需要回答以下两个问题

选择哪个属性？不知道，需要遍历所有属性
选择哪个属性值？首先对样本按照属性值进行排序，然后用穷举法选择最优的属性值，这就是论文中的Algorithm 1: Exact Greedy Algorithm for Split Finding

设样本数量为 $n$ ，特征数为 $d$ ，则在一个节点上寻找最优分裂点的复杂度为 $O(d n \log n)$

首先对 $d$ 个特征进行预排序，复杂度为 $O(d n \log n)$ ，然后对每一个特征进行线性扫描，复杂度为 $O(dn)$ ，最终可以找到Gain最大时对应的那个特征及特征的取值，复杂度为 $O(d n \log n)+O(dn)=O(d n \log n)$

在 $n$ 个 $d$ 维样本上构建深度为 $K$ 的树，所需要的时间复杂度为 $O(ndK\log n)$

设 $K=3$ ，第1层的复杂度为 $O(dn\log n)$ ，第2层的复杂度为 $O(dn\log\frac{n}{2})\approx O(dn\log n)$ ，第3层 $O(dn\log\frac{n}{4})\approx O(dn\log n)$ ，3层加起来复杂度为 $O(ndK\log n)$

论文3.3 Weighted Quantile Sketch

$\begin{align} Obj^{(t)} &= \sum_{i=1}^{n}\left ( g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i) \right ) + \Omega(f_t) \\ &= \sum_{i=1}^{n}\frac{1}{2}h_i\left ( \frac{2g_if_t(x_i)}{h_i} + f_t^2(x_i) \right ) + \Omega(f_t) \\ &= \sum_{i=1}^{n}\frac{1}{2}h_i\left ( \frac{g_i^2}{h_i^2} + \frac{2g_if_t(x_i)}{h_i} + f_t^2(x_i) \right ) + \Omega(f_t) \text{（在括号内添加常量项$\frac{g_i^2}{h_i^2}$）}\\ &= \sum_{i=1}^{n}\frac{1}{2}h_i\left ( f_t(x_i) + \frac{g_i}{h_i} \right )^2 + \Omega(f_t) \end{align}$

XGBoost相比传统GBDT有何不同？

传统GBDT在优化时仅利用了一阶导数，而XGBoost对Loss Function进行二阶泰勒展开，利用了一阶和二阶导数

XGBoost在Loss Function中加入正则化项

XGBoost提出使用Column Subsampling技术，该技术最初用于Random Forest中，可以防止过拟合，加快计算速度（见论文Sec. 2.3）

XGBoost能够处理缺失值，具体做法是，使用那些在该属性上不缺失的样本，遍历所有切分点，找到最好的切分点，由此学习到了默认的分裂方向（default direction，见论文Sec. 3.4）

传统GBDT以CART作为基分类器，XGBoost还支持线性分类器（参数booster默认为gbtree，可选gblinear，dart）

XGBoost把树的节点个数作为正则项

XGBoost的特征重要性是如何得到的？

某个特征的重要性（feature score），等于它被选中为树节点分裂特征的次数之和

o0Helloworld0o

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
XGBoost原理

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...
复制链接

扫一扫