最详细的数学推导Boost、GBDT、XGboost之XGboost

最新推荐文章于 2024-04-30 15:33:58 发布

Taylor......

最新推荐文章于 2024-04-30 15:33:58 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：数学公式推导 Boost Xgboost GBDT

本文链接：https://blog.csdn.net/weixin_41848793/article/details/93200572

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

文章目录

一、系列文章

本篇主要顺着作者Tianqi Chen的PPT为思路来介绍(参考1)，他的PPT和论文是XGboost的源头，把他的论文和PPT啃下来，XGboost就一定没问题（不要怕英文水平差的问题）

XGboost可以说是在前面基础算法的基础上发展过来的，Boost，GBDT文章既是经典思想不能错过，也是XGboost的基础
甚至可以这样概括
$\begin{aligned} X\!G\!Boost&=eXtreme+GBDT\\ &=eXtreme+(Gradient+BDT) \\ &=eXtreme+Gradient+(Boosting+DecisionTree) \end{aligned}$
$\to BDT \to GBDT \to X\!G\!Boost$
Xgboost是通过前面基础一步步过来的（这样好理解）

二、监督学习回顾（Review of key concepts of supervised learning）

1> 基本概念

在这里插入图片描述
监督学习需要有训练样本和标签，给定一个新的 $x_{i}$ 得到预测的 $\hat{y}$ 是训练的模型的目的。不同的模型， $\hat{y}$ 有着不同的形式，线性回归是一个连续值，逻辑回归是预测正例概率和负例的概率，但是这些模型都是学习对应的参数，有了模型的参数 $w$ ,就能够得到模型的预测结果

2> 目标函数

在这里插入图片描述
目标函数是经验损失与正则化项的加和
3. $L(\Theta)$ 衡量训练样本预测值和真实输出的误差， $\Omega(\Theta)$ 衡量模型的复杂度，正则化项主要是从模型的学习参数 $w$ 着手， $L_{2}= \lambda||w||^2$ 范数和 $L_{1}=\lambda||w||_{1}$ 范数可以看到只与参数 $w$ 有关
4. 同时参数模型以及正则化的分离一定程度上带来比较好的工程意义

3> Bias and Variance Trade-off

在之前的文章中提到关于Bias Variance Trade-off
在这里插入图片描述
目标函数中通常会有经验损失和正则化项。
5. $L(\Theta)$ 优化的效果是使得训练样本的误差尽量的减小，bias更小逼近最真实的模型基本分布，但是往往会把训练样本的噪声等都学到，使得模型更加复杂
6. $\Omega(\Theta)$ 的作用是模型尽量简单，使模型更加稳健，使得方差更小但是相对来说会增加训练样本的误差，所以两者是需要权衡使模型泛化能力更强

三、回归树及集成（模型参数）

1> CART树

在这里插入图片描述
回归树的定义实际上就是：有哪些叶子节点（回归树的结构），以及叶子节点的均值（每个叶子节点的输出值），这个对理解XGboost 树模型的定义很关键

一棵树的决策难免有失误，很多树的组合集成却能达到很好的效果，分类树的集合就是随机森林，回归树的集成就是GBDT
集成的优点：
在这里插入图片描述
集成方法在大多数数据挖掘的比赛中得到了广泛的应用，得益于不需要数据幅度缩放，良好的可扩展性等。

2> 集成学习目标函数的定义

经验损失：
在这里插入图片描述
正则化项定义：

可以联系上面对目标函数的定义，目标函数 = 经验损失+ 正则化项

集成学习中已经不是学习模型的参数 $w$ ,而是学习每一棵树，每一棵树是由什么参数决定的，树的结构和叶子节点的输出（类似前面对树模型的定义）
树的复杂度控制，在于树的分裂次数（可以理解为叶子节点的个数）

四、XGboost

1> 目标函数及学习方法

在这里插入图片描述

目标函数： $\sum_{i=1}^{n}l(y_{i},\hat{y_{i}})$ 经验损失的泛化表示（可以表示很多的常规经验损失例如：平方损失等）， $\sum_{k}\Omega(f_{k})$ 是每一颗树的正则化之和
学习方法采用前向分布计算，基于前面的GBDT可以看到，t时刻的决策树的构成，是等于前面t-1时刻决策树+此时基于残差学习到的一棵树
可以得到XGboost的第t棵树构造的时候，目标函数
$Obj^{(t)} = \sum_{i=1}^{n}l(y_{i},\hat{y_{i}} ^{(t-1)} + f_{t}(x_{i})) + \Omega(f_{t})+ constant$

constant 代表前t-1树的正则项之和，已经在前n-1时刻优化得到，所以是常量
$\hat{y_{i}} ^{(t-1)}$ 是前t-1时刻的预测也是常量，所以变量只有 $f_{t}(x_{i})$

2> 二阶泰勒展开误差损失

在这里插入图片描述

取经验损失关于 $\hat{y_{i}} ^{(t-1)}$ 的一阶导数和二阶导数，忽略高阶导数项（根据泰勒展开式如图）
$g_i=\partial_{\hat{y}^{\left(t-1\right)}}l\left(y_i,\hat{y}^{\left(t-1\right)}\right),h_i=\partial^2_{\hat{y}^{\left(t-1\right)}}l\left(y_i,\hat{y}^{\left(t-1\right)}\right)$
得到最终的近似目标函数
可以看到如果训练误差是均方误差，会得到我们熟悉的形式
是对第t颗树的优化时，前t-1颗树结构是已经优化出来了的，凡是涉及到前t-1颗树的东西，都是一个常数可以进一步化简得到

3> 正则化项

前面说明了描述集成树的复杂度用叶子节点的个数，XGboost中选择

叶子节点的个数（T）
叶子节点的输出作为复杂度度量的基本点（ $w$ ）
所以： $\Omega\left(f\right)=\gamma T+\frac{1}{2}\lambda\|w\|^2=\gamma T+\frac{1}{2}\lambda\sum_{j=1}^T w_j^2$ 。
所以目标函数：
$Obj^{\left(t\right)}=\sum_{i=1}^n\left[g_i f_t\left(\mathbf{x}_i\right)+\frac{1}{2}h_i f^2_t\left(\mathbf{x}_i\right)\right]+\gamma T+ \frac{1}{2}\lambda\sum_{j=1}^T w_j^2$

4> 神来之笔（也是全PPT最难理解的地方）

在这里插入图片描述
最终得到这个公式需要知道两处设计非常精巧的内容：

关于树模型的定义
$f\left(\mathbf{x}\right)=w_{q\left(\mathbf{x}\right)} \tag{4.1}$ 其中， $q:\mathbb{R}^m\to \{1,\dots,T\},w\in\mathbb{R}^T$ , $T$ 为决策树叶子节点数。

可以看到T代表叶子节点树，q代表函数将一个m维向量映射到叶子节点的标号 $\{1,\dots,T\}$ 之间，而 $w$ 是T维的向量每一维数字代表一个叶子节点的输出，所以模型直接定义了从x向量进入到划分输出均值的输出 $w_{i}$

关于 $I_j=\{i|q\left(\mathbf{x}_i\right)=j\}$ 的应用
可以看到公式中 $Obj^{\left(t\right)}=\sum_{i=1}^n\left[g_i f_t\left(\mathbf{x}_i\right)+\frac{1}{2}h_i f^2_t\left(\mathbf{x}_i\right)\right]+\gamma T+ \frac{1}{2}\lambda\sum_{j=1}^T w_j^2$

n 代表样本数目， $\sum_{i=1}^{n}$ 代表遍历每一个样本， $f_{t}(x_{i})$ 的意思是说对于每一个 $x_{i}$ 得到他的决策树叶子节点的输出值【此刻是不是与上面1点相呼应，别急】，那么每一个叶子节点包含多个样本，也因此这个叶子节点对应的 $f_{t}(x_{i})$ 值都相等
T 代表叶子节点的个数， $\sum_{j=1}^{T}$ 表示遍历每一个叶子节点，此时我们用叶子节点的标号 $T$ 和 $j$ 去替换前面 $n$ 和 $i$ 【也就是用一簇叶子节点样本替换一个一个样本】就得到了这一步（想想是不是，一定是！）

5> 最优w*和obj

至此一个标准的二次函数已经生成，会发现无论是这里的最优 $w^*$ 和 $o b j$ 以及下面的CART树生长时的分裂属性和阈值的选择都是基于这个二次函数的基本性质
【高中公式极值点和极值公式】
在这里插入图片描述

6> 分裂属性和分裂值的选取

GBDT算法分裂属性和分裂值选区中，有两层循环，外层循环是所有属性遍历，内存循环是把对应属性的范围进行分段遍历。
XGboost对GBDT算法做了优化，对于一个分裂属性，可以算出当按照这个属性进行分裂时的左右子树的obj，那么如果不按照这个属性分裂，也会有一个不分裂的obj，这样我们就可以算出这个属性的obj增量-Gain，Gain如果是正的，并且值越大，就越容易选中切分，同时γ在这里实际上是一个临界值，它的值越大，表示我们对切分后obj下降幅度要求越严。这个值也是可以在xgboost中设定的。（也就是说还是归功于二次函数形式得到的最优值和最优的obj）