XGBoost理论推导+论文解读-上集

金鸡湖最后的张万森

已于 2023-12-18 22:12:51 修改

阅读量398

点赞数 12

分类专栏：集成学习机器学习文章标签：集成学习机器学习

于 2023-12-18 14:44:22 首次发布

本文链接：https://blog.csdn.net/Alex_sdhjkb/article/details/135062431

版权

集成学习同时被 2 个专栏收录

7 篇文章 1 订阅

订阅专栏

机器学习

7 篇文章 0 订阅

订阅专栏

泰勒公式

泰勒公式（Taylor’s Formula）是一个用函数在某点的信息描述其附近取值的公式。其初衷是用多项式来近似表示函数在某点周围的情况。

对于一般的函数，泰勒公式的系数的选择依赖于函数在一点的各阶导数值。函数f(x)在 $x_0$ 处的基本形式如下：

$\begin{aligned} f(x) & =\sum_{n=0}^{\infty} \frac{f^{(n)}\left(x_0\right)}{n !}\left(x-x_0\right)^n \\ & =f\left(x_0\right)+f^{(1)}\left(x_0\right)\left(x-x_0\right)+\frac{f^{(2)}\left(x_0\right)}{2}\left(x-x_0\right)^2+\cdots+\frac{f^{(n)}\left(x_0\right)}{n !}\left(x-x_0\right)^n\end{aligned}$

还有另外一种常见的写法， $x^{t+1}=x^t+\Delta x$ ，将 $f\left(x^{t+1}\right)$ 在 $x^t$ 处进行泰勒展开，得:
$f\left(x^{t+1}\right)=f\left(x^t\right)+f^1\left(x^t\right) \Delta x+\frac{f^2\left(x^t\right)}{2} \Delta x^2+\cdots$

补充：

1.多项式的函数图像特点

$\sum_{n=0}^N \frac{f^{(n)}(0)}{n !} x^n$ 展开来就是 $f(0)+f^{\prime}(0) x+\frac{f^{\prime \prime}(0)}{2 !} x^2+\cdots+\frac{f^{(N)}(0)}{N !} x^N$ ，我们单独分析 $x^2,x^3等幂函数$

注意：先呈现 $x^9$ 的特性，再呈现 $x^2$ 的特性，最后呈现 $x^9$ 的特性

结论：

可以看到，幂函数其实只有两种形态：一种是关于Y轴对称，一种是关于原点对称并且指数越大，增长速度越大；
$x^2完全被x^9压制，图像上只有x^9的图像特点$ ，有了9！和2！的帮助后，图像先呈现 $x^9$ 的特性，再呈现 $x^2$ 的特性，最后呈现 $x^9$ 的特性

2.例子：用多项式对 $e^x$ 进行逼近

$e^x=1+x+\frac{1}{2 !} x^2+\cdots+\frac{1}{n !} x^n+R_n(x)$

可以看出， $\frac{1}{n !} x^n$ 不断的弯曲着那根多项式形成的铁丝去逼近 $e^x$ 。并且 $n$ 越大，贴合 $e^x$ 的区域就越大。

3.用多项式对sin(x) 进行逼近

$\sin (x)$ 是周期函数 $Q$ ，有非常多的弯曲，难以想象可以用多项式进行逼近。
$\sin (x)=x-\frac{1}{3 !} x^3+\cdots+\frac{(-1)^n}{(2 n+1) !} x^{(2 n+1)}+R_n(x) \text { 。 }$

可以看到 $\frac{1}{7 !} x^7$ 在适当的位置，改变了 $x-\frac{1}{3 !} x^3+\frac{1}{5 !} x^5$ 的弯曲方向，最终让 $x-\frac{1}{3 !} x^3+\frac{1}{5 !} x^5-\frac{1}{7 !} x^7$ 更好的逼近了 $\sin (x)$ 。

4.泰勒公式与拉格朗日中值定理的关系

拉格朗日中值定理：如果函数 $f (x)$ 满足，在 $[a, b]$ 上连续，在 $(a, b)$ 上可导，那么至少有一点 $\theta(a<\theta<b)$ )使等式 $f^{\prime}(\theta)=\frac{f(a)-f(b)}{a-b}$ 成立。

这个和泰勒公式有什么关系?

泰勒公式有个余项 $R_n(x)$ 我们一直没有提。余项即使用泰勒公式估算的误差，即 $f(x)-\sum_{n=0}^N \frac{f^{(n)}(a)}{n !}(x-a)^n=R_n(x)$
余项的代数式是， $R_n(x)=\frac{f^{(n+1)}(\theta)}{(n+1) !}(x-a)^{(n+1)}$ ，其中 $a<\theta<x$ ，这里我么假定函数 $f (x)$ 在含a的某个开区间内有连续的n+1阶导数。

当 $N = 0$ 的时候，根据泰勒公式有， $f(x)=f(a)+f^{\prime}(\theta)(x-a)$ ，把拉格朗日中值定理中的 $b$ 换成 $x$ ，那么拉格朗日中值定理根本就是 $N = 0$ 时的泰勒公式。

5.泰勒公式是怎么推导的？

以直代曲、化整为零

如上图，把曲线等分为 $n$ 份，分别为 $a_1 ， a_2 ， \cdots ， a_n$ ，令 $a_1=a ， a_2=a+\Delta x$ ， $\cdots ， a_n=a+(n-1) \Delta x$ 。我们可以推出 $\left(\Delta^2 ， \Delta^3\right.$ 可以认为是二阶、三阶微分，其准确的数学用语是差分，和微分相比，一个是有限量，一个是极限量）。

补充：牛顿插值

引入：对于已知的4组数据【(1, 3), (2, 6), (4, 5), (5, 7)】，如何预测未知数据(3, ?)

插值

所以根据这4个点，我们随便猜测一个运动轨迹：

线性插值

线性插值法中根本不需要x=1,x=5的数据，只需要x=2, x=4

多项式插值

线性方程

联立方程组求出 $f(x)=a+b x+c x^2+d x^3$ 的四个多项式系数a,b,c,d

$\left\{\begin{array}{l}3=a+b+c+d \\ 6=a+2 b+4 c+8 d \\ 5=a+4 b+16 c+64 d \\ 7=a+5 b+25 c+125 d\end{array}\right.$

缺点：

计算量大，若数据量，会给计算带来较大阻碍
增加一个观测数据，整个计算过程就要重新来

于是就产生了牛顿插值法

牛顿插值法

每增加一个点，不会导致之前的重新计算，只需要算和新增点有关的就可以了

观察 $b_1, b_2$ 的特点，不断重复上述过程，就可以得到牛顿插值法。

求解流程

先从求满足两个点 $\left(x_0, f\left(x_0\right)\right),\left(x_1, f\left(x_1\right)\right)$ 的函数 $f_1(x)$ 说起:
假设 $f_1(x)=f\left(x_0\right)+b_1\left(x-x_0\right)$ ，
$\text { 令 } f_1\left(x_1\right)=f\left(x_1\right) \text { : }$

$\begin{aligned} & \Longrightarrow b_1=\frac{f\left(x_1\right)-f\left(x_0\right)}{x_1-x_0} \\ & \Longrightarrow f_1(x)=f\left(x_0\right)+\frac{f\left(x_1\right)-f\left(x_0\right)}{x_1-x_0}\left(x-x_0\right) \end{aligned}$

现在我们增加一个点， $\left(x_0, f\left(x_0\right)\right),\left(x_1, f\left(x_1\right)\right),\left(x_2, f\left(x_2\right)\right)$ ，求满足这三个点的函数 $f_2(x)$

假设 $f_2(x)=f_1(x)+b_2\left(x-x_0\right)\left(x-x_1\right)$ ，
令 $f_2\left(x_2\right)=f\left(x_2\right)$
$\begin{array}{ll} \Longrightarrow b_2=\ & \frac{\left[\frac{f\left(x_2\right)-f\left(x_1\right)}{x_2-x_1}\right]-\left[\frac{f\left(x_1\right)-f\left(x_0\right)}{x_1-x_0}\right]}{x_2-x_0} \\ \Longrightarrow f_2(x)=\quad & f\left(x_0\right)+\frac{f\left(x_1\right)-f\left(x_0\right)}{x_1-x_0}\left(x-x_0\right) \\ & +\frac{\left[\frac{f\left(x_2\right)-f\left(x_1\right)}{x_2-x_1}\right]-\left[\frac{f\left(x_1\right)-f\left(x_0\right)}{x_1-x_0}\right]}{x_2-x_0}\left(x-x_0\right)\left(x-x_1\right) \end{array}$
$b_1, b_2$ 看起来蛮有特点的，我们把特点提炼一下。
一阶均差:
$f\left[x_i, x_j\right]=\frac{f\left(x_i\right)-f\left(x_j\right)}{x_i-x_j}, i \neq j$

二阶均差是一阶均差的均差:

$f\left[x_i, x_j, x_k\right]=\frac{f[i, j]-f[j, k]}{x_i-x_k}, i \neq j \neq k$

三阶均差就是二阶均差的均差，以此类推，我们得到 $\left(x_0, f\left(x_0\right)\right),\left(x_1, f\left(x_1\right)\right),\left(x_2, f\left(x_2\right)\right)...(x_n,f(x_n))$ 牛顿插值法为:
$\begin{aligned} f(x)= & f\left(x_0\right)+f\left[x_0, x_1\right]\left(x-x_0\right) \\ & +f\left[x_0, x_1, x_2\right]\left(x-x_0\right)\left(x-x_1\right)+\cdots \\ & +f\left[x_0, x_1, \cdots, x_{n-2}, x_{n-1}\right]\left(x-x_0\right)\left(x-x_1\right) \cdots\left(x-x_{n-2}\right) \\ & +f\left[x_0, x_1, \cdots, x_{n-1}, x_n\right]\left(x-x_0\right)\left(x-x_1\right) \cdots\left(x-x_{n-1}\right) \end{aligned}$

注释：

单独看等号右边第一项 $f(x)=f(x_0)$ 是把 $x_0, f(x_0))$ 带入的式子；右边第二项 $f(x)=f\left[x_0, x_1\right]\left(x-x_0\right)$ 是把 $x_1, f(x_1))$ 带入的式子，并保证 $x=x_0$ 时， $f (x) = 0$ ;右边第三项 $f(x)=f\left[x_0, x_1, x_2\right]\left(x-x_0\right)\left(x-x_1\right)$ 是把 $x_2, f(x_2))$ 带入的式子，并保证 $x=x_0或者x=x_1$ 时， $f (x) = 0$ 。从而保证新增一个点，只需要计算相关的差分就可以了

5.泰勒公式是怎么推导的？

泰勒把牛顿插值法做了一些改造。

首先，设 $f (x)$ 是一个函数，它在 $x_0, x_0+\Delta x, x_0+2 \Delta x, x_0+3 \Delta x, \cdots, x_0+n \Delta x$ 的值已知（和之前的相比，相当于每个点都是等距离间隔的，间隔 $\Delta x$ ），令:
$\begin{aligned} & \Delta f\left(x_0\right)=f\left(x_0+\Delta x\right)-f\left(x_0\right) ， \text { 也称为一阶差分 } ， \\ & \Delta f\left(x_0+\Delta x\right)=f\left((x_0+ \Delta x )+ \Delta x\right)-f\left(x_0+\Delta x\right) ， \\ & \Delta f\left(x_0+2 \Delta x\right)=f\left(x_0+3 \Delta x\right)-f\left(x_0+2 \Delta x\right) \end{aligned}$

进一步令:
$\Delta^2 f\left(x_0\right)=\Delta f\left(x_0+\Delta x\right)-\Delta f\left(x_0\right)$ ，也称为二阶差分 (为一阶差分的差分) $\Delta^3 f\left(x_0\right)=\Delta^2 f\left(x_0+\Delta x\right)-\Delta^2 f\left(x_0\right)$ ，也称为三阶差分。

做了这些假设之后我们来看看之前提到的 $b_1$ 会变成什么样子:
$b_1=\frac{f\left(x_1\right)-f\left(x_0\right)}{x_1-x_0} \Longrightarrow b 1=\frac{\Delta f\left(x_0\right)}{{\Delta x}}$
而 $f_1(x)$ 会变成:
$f_1(x)=f\left(x_0\right)+\frac{f\left(x_1\right)-f\left(x_0\right)}{x_1-x_0}\left(x-x_0\right) \Longrightarrow f_1(x)=f\left(x_0\right)+\frac{\Delta f\left(x_0\right)}{\Delta x}(x-x)$

同样的 $f_2(x)$ 就变成了:
$f_2(x)=f\left(x_0\right)+\frac{\Delta f\left(x_0\right)}{\Delta x_0}\left(x-x_0\right)+\frac{\Delta^2 f\left(x_0\right)}{2 (\Delta x)^2}\left(x-x_0\right)\left(x-x_1\right)\\ \Delta^2 f\left(x_0\right)=\Delta f(x_0+\Delta x)- \Delta f(x_0)=f(x_0+2\Delta x)-f(x_0+\Delta x)-[f(x_0+\Delta x)-f(x_0 )]$

泰勒断言，当 $\Delta x=0$ 时:
$\begin{gathered} f_1(x)=f\left(x_0\right)+f^{\prime}\left(x_0\right)\left(x-x_0\right) \\ f_1(x)=f\left(x_0\right)+f^{\prime}\left(x_0\right)\left(x-x_0\right)+\frac{f^{\prime \prime}\left(x_0\right)}{2 !}\left(x-x_0\right)^2 \end{gathered}$
$\left(\Delta x=0\right.$ 时由于 $x_1=x_0+\Delta x$ 有 $\left.x-x_1=x-x_0\right)$
以此类推泰勒就得到了大名鼎鼎的泰勒公式:
$f(x)=f\left(x_0\right)+f^{\prime}\left(x_0\right)\left(x-x_0\right)+\frac{f^{\prime \prime}\left(x_0\right)}{2 !}\left(x-x_0\right)^2+\cdots$

梯度下降法

梯度下降法其实可以泰勒公式来表示。假设要最小化损失函数L(w), 我们知道，梯度下降法的过程为：

选取初始值 $w^0$
迭代更新 $w^{t+1}=w^{t}-\eta L^{\prime}(w)$ ,其中 $\eta 为学习率$ ， $w^{t+1}$ 表示第t轮迭代得到的参数

用泰勒公式在 $w^t$ 处一阶展开则可以表示为
$\begin{aligned} L\left(w^{t+1}\right) & =L\left(w^t\right)+L^{\prime}\left(w^t\right)\left(w^{t+1}-w^t\right)+R \\ & \approx L\left(w^t\right)+L^{\prime}\left(w^t\right)\left(w^{t+1}-w^t\right) \\ & =L\left(w^t\right)+\eta v L^{\prime}\left(w^t\right) \end{aligned}$
其中： $R$ 为残差项，当 $\left(w^{t+1}-w^t\right)$ 较小的时候, $\approx 0$ 设 $w^{t+1}-w^t=\eta v, \eta$ 为学习率, $v$ 则为单位向量

要使得迭代后损失函数变小，即 $L\left(w^{t+1}\right)<L\left(w^t\right)$ ，回想向量相乘的公式， $\|v\| \cdot\left\|L^{\prime}\left(w^t\right)\right\| \cdot \cos \theta$ ，则我们可以令 $\mathrm{v}$ 和 $L^{\prime}\left(w^t\right)$ 反向，这样可以让他们向量乘积最小，于是
$v=-\frac{L^{\prime}\left(w^t\right)}{\left\|L^{\prime}\left(w^t\right)\right\|}$

于是
$w^{t+1}=w^t-\eta \frac{L^{\prime}\left(w^t\right)}{\left\|L^{\prime}\left(w^t\right)\right\|}$

又因为 $\left\|L^{\prime}\left(w^t\right)\right\|$ 为标量，可以并入 $\eta$ 中，即简化为:
$w^{t+1}=w^t-\eta L^{\prime}\left(w^t\right)$

牛顿法

牛顿法其实是泰勒公式在 $w^t$ 处二阶展开，即
$L\left(w^{t+1}\right) \approx L\left(w^t\right)+L^{\prime}\left(w^t\right)\left(w^{t+1}-w^t\right)+\frac{L^{\prime \prime}\left(w^t\right)}{2}\left(w^{t+1}-w^t\right)^2$

假设参数 $w$ = $w^1,w^2,...,w^t,..)^T$ 为一维向量，若 $L\left(w^{t+1}\right)$ 为极小值，必然有其一阶导数为 0 ，因此可以让 $L$ 对 $w^{t+1}$ 求偏导得
$\frac{\partial L}{\partial w^{t+1}}=L^{\prime}\left(w^t\right)+\left(w^{t+1}-w^t\right) L^{\prime \prime}\left(w^t\right)$

令偏导为 0 ，可得：
$w^{t+1}=w^t-\frac{L^{\prime}\left(w^t\right)}{L^{\prime \prime}\left(w^t\right)}$

如果扩展到高维，即w为向量，则
$w^{t+1}=w^t-H^{-1} g \quad H \text { 为海森矩阵, } g=L^{\prime}\left(w^t\right)$

牛顿法和梯度下降法对比

梯度下降法只利用到了目标函数的一阶偏导数信息，以负梯度方向作为搜索方向，只考虑目标函数在迭代点的局部性质。

而牛顿法不仅使用目标函数的一阶偏导数，还进一步利用了目标函数的二阶偏导数，这样就考虑了梯度变化的趋势，因而能更全面的确定合适的搜索方向以加快收敛。但牛顿法主要有一下两个缺点：

对目标函数有严格的要求，函数必须有连续的一、二阶偏导（二阶泰勒展开要求该区间内存在连续二阶导数，同时二阶泰勒展开会用一阶导，所以也要求一阶偏导数连续，否则二阶导数无法求极限），海森矩阵必须正定（一个矩阵是正定的，意味着对于所有非零向量x，都有 $x^THx>0$ 。在优化问题中，这表明函数在该点附近是凸的,即该点是局部极小值）。
计算相当复杂，除需计算梯度以外，还需计算二阶偏导数矩阵和它的逆矩阵，计算量和空间消耗比较大。

XGBoost

在有监督学习中，可以分为：模型，参数、目标函数和学习方法。

模型即给定输入xi如何预测输出yi，而这个y可以很多种形式，如回归，概率，类别、排序等

参数即比如线性回归的w

目标函数可以分为损失函数+正则: $\operatorname{Obj}(\Theta)=L(\Theta)+\Omega(\Theta)$

损失函数：如平方误差等，告诉我们模型拟合数据的情况。 => Bias

正则项：惩罚复杂的模型，鼓励简单的模型。 => Variance

L1正则化通过惩罚模型参数的绝对值来工作。这导致模型参数中的一些变成零，从而产生一个稀疏模型。通过减少模型中非零参数的数量，L1正则化可以减少模型的复杂性和方差;L2正则化通过惩罚模型参数的平方和来工作。这种方法倾向于均匀地减小所有参数的值[5** 2减小为2**2】，从而使模型变得不那么敏感于输入数据的小波动，降低了方差)

模型学习方法即解决给定目标函数后怎么学的问题。

在XGBoost中：

模型学习：定义目标函数，然后优化目标函数
目标函数(XGBoost中目标函数是针对一棵树的目标函数，而不是针对一个样本或一整个算法的目标函数。并且，任意树的目标函数都包括三大部分：损失函数 $l$ 、叶子数量 $T$ 以及正则项)： $\operatorname{Obj}(\Theta)=\sum_{i=1}^N l\left(y_i, \hat{y}_i\right)+\sum_{j=1}^t \Omega\left(f_j\right), \quad f_j \in \mathcal{F}$

由于f是树，而不是连续数值型的向量，所以不能用梯度下降法，可以通过前向分步算法，即贪心法找到局部最优解： $\hat{y}_i^{(t)}=\sum_{j=1}^t f_j\left(x_i\right)=\hat{y}_i^{(t-1)}+f_t\left(x_i\right)$

所以目标函数可以写成

$\begin{aligned} O b j^{(t)} & =\sum_{i=1}^N l\left(y_i, \hat{y}_i^{(t)}\right)+\sum_{j=1}^t \Omega\left(f_j\right) \\ & =\sum_{i=1}^N l\left(y_i, \hat{y}_i^{(t-1)}+f_t\left(\mathbf{x}_{\mathbf{i}}\right)\right)+\Omega\left(f_t\right)+\text { constant }\\ &\approx \sum_{i=1}^{N}l\left(y_i, \hat{y}_i^{(t-1)}+f_t\left(\mathbf{x}_{\mathbf{i}}\right)\right)+\Omega\left(f_t\right) \end{aligned}$

第t轮训练时，前面的t-1轮的正则项都相当于常数，可以不做考虑，但是损失函数不满足 $l(y_i, \hat y_i^{(t-1)}+f_t(x_i))=l(y_i, \hat y_i^{(t-1)})+l(y_i,f_t(x_i))$

假设损失函数使用的是平方损失,则上式可以写成

$\begin{aligned} O b j^{(t)} & =\sum_{i=1}^N\left(y_i-\left(\hat{y}_i^{(t-1)}+f_t\left(\mathbf{x}_{\mathbf{i}}\right)\right)\right)^2+\Omega\left(f_t\right) \\ & =\sum_{i=1}^N(\underbrace{y_i-\hat{y}_i^{(t-1)}}_{\text {残差 }}-f_t\left(\mathbf{x}_{\mathbf{i}}\right))^2+\Omega\left(f_t\right)\end{aligned}$

对于一般的损失函数，可以对目标函数进行二阶泰勒展开

$\begin{aligned} O b j^{(t)} & =\sum_{i=1}^N l\left(y_i, \hat{y}_i^{(t-1)}+f_t\left(\mathbf{x}_{\mathbf{i}}\right)\right)+\Omega\left(f_t\right) \\ & =\sum_{i=1}^N\left(l\left(y_i, \hat{y}_i^{(t-1)}\right)+g_i f_t\left(\mathbf{x}_{\mathbf{i}}\right)+\frac{1}{2} h_i f_t^2\left(\mathbf{x}_{\mathbf{i}}\right)\right)+\Omega\left(f_t\right) \\ & \text { 其中, } g_i=\frac{\partial l\left(y_i, \hat{y}_i\right)}{\partial \hat{y}_i}|_{\hat{y}_i=\hat{y}_i^{(t-1)}}, h_i=\frac{\partial^2 l\left(y_i, \hat{y}_i\right)}{\partial^2 \hat{y}_i}|_{\hat{y}_i=\hat{y}_i^{(t-1)}}\end{aligned}$
正则项：
- XGBoost采用衡量树复杂度的方式为:一棵树里面叶子节点的个数T，以及每棵树叶子节点上面输出分数w的平方和(相当于L2正则)
  
  $\Omega\left(f_t\right)=\gamma T+\frac{1}{2} \lambda \sum_{j=1}^T w_j^2$
将损失函数和正则项结合得到 $j^{(t)}=\underbrace{\sum_{i=1}^N\left(g_i f_t\left(\mathbf{x}_{\mathbf{i}}\right)+\frac{1}{2} h_i f_t^2\left(\mathbf{x}_{\mathbf{i}}\right)\right)}_{\text {对样本累加 }}+\gamma T+\frac{1}{2} \lambda \underbrace{\sum_{j=1}^T w_j^2}_{\text {对叶结点累加 }}$

前后求和符合上下限要保持一致，将各个样本的损失函数映射到各个叶节点上，此处定义q函数将输入x映射到某个叶节点上，即

$f_t(x)=w_{q(x)}(表示树各叶子结点的权重)，把x看成一个向量)，同时定义每个叶子节点j上的样本集合(样本x_i在第j个叶子节点上)为\\I_j=\left\{i \mid q\left(x_i\right)=j\right\}$

则目标函数可以写成

$\begin{aligned} O b j^{(t)} & =\sum_{i=1}^N\left(g_i f_t\left(\mathbf{x}_{\mathbf{i}}\right)+\frac{1}{2} h_i f_t^2\left(\mathbf{x}_{\mathbf{i}}\right)\right)+\gamma T+\frac{1}{2} \lambda \sum_{j=1}^T w_j^2 \\ & =\sum_{i=1}^N\left(g_i w_{q\left(\mathbf{x}_{\mathbf{i}}\right)}+\frac{1}{2} h_i w_{q\left(\mathbf{x}_{\mathbf{i}}\right)}^2\right)+\gamma T+\frac{1}{2} \lambda \sum_{j=1}^T w_j^2 \\ & =\sum_{j=1}^T\left(\sum_{i \in I_j} g_i w_j+\frac{1}{2} \sum_{i \in I_j} h_i w_j^2\right)+\gamma T+\frac{1}{2} \lambda \sum_{j=1}^T w_j^2 \\ & =\sum_{j=1}^T\left(G_j w_j+\frac{1}{2}\left(H_j+\lambda\right) w_j^2\right)+\gamma T\end{aligned}$

其中 $G_j=\sum_{i \in I_j}g_i, H_j=\sum_{i \in I_j}h_i$

现在要做的是两件事：

确定树的结构, 这样这一轮的目标函数（也就是变量T）就确定了下来；
求使得当前这一轮(第t轮)的目标函数最小的叶结点分数w。(Obj代表了当我们指定一个树的结构的时候，我们在目标上面最多减少多少，也称为结构分数，structure score）

假设已经知道了树的结构，那么第2件事情是十分简单的，直接对w求导，使得导数为0，就得到每个叶结点的预测分数为： $w_j=-\frac{b}{2a}=-\frac{G_j}{H_j+ \lambda},则此时目标函数取到最小值$
$\begin{aligned} O b j^{(t)} & =\sum_{j=1}^T\left(G_j w_j+\frac{1}{2}\left(H_j+\lambda\right) w_j^2\right)+\gamma T \\ & =\sum_{j=1}^T\left(-\frac{G_j^2}{H_j+\lambda}+\frac{1}{2} \frac{G_j^2}{H_j+\lambda}\right)+\gamma T \\ & =-\frac{1}{2} \sum_{j=1}^T\left(\frac{G_j^2}{H_j+\lambda}\right)+\gamma T \end{aligned}$
XGBoost-structure-score-calculation

总结推导流程

v2-def00357a06b469b6144d6acb8ab75a9_1440w

基本流程分析：

假设现有数据集 $N$ ，含有形如 $x_i,y_i)$ 的样本 $M$ 个， $i$ 为任意样本的编号，单一样本的损失函数为 $l(y_i,H(x_i))$ ，其中 $H(x_i)$ 是 $i$ 号样本在集成算法上的预测结果，整个算法的损失函数为 $L (y, H (x))$ ，且总损失等于全部样本的损失之和： $\sum_i l(y_i,H(x_i))$ 。目标函数中使用L2正则化（ $\alpha$ 为0），并且 $\gamma$ 不为0。

同时，弱评估器为回归树 $f$ ，总共学习 $K$ 轮（注意在GBDT当中我们使用的是大写字母T来表示迭代次数，由于在XGBoost当中字母T被用于表示目标函数中的叶子总量，因此我们在这里使用字母K表示迭代次数）

1) 初始化

考虑到XGBoost在许多方面继承了梯度提升树GBDT的思想，我们可以使用公式来计算XGBoost的 $H_0$ ：
$\begin{aligned} H_0(x) &= \mathop{argmin}_{C} \sum_{i=1}^M l(y_i,C)\\ \\ &= \mathop{argmin}_{C} L(y,C) \end{aligned}$

开始循环，for k in 1,2,3…K:

2) 抽样

在现有数据集 $N$ 中，抽样 $M$ * subsample个样本，构成训练集 $N^k$ (subsample:抽样比）
3) 求拟合项

对任意一个样本 $i$ ，计算一阶导数 $g_{ik}$ ，二阶导数 $h_{ik}$ ，以及伪残差（pseudo-residuals） $r_{ik}$ ，具体公式为：

$g_{ik} = \frac{\partial{l(y_i,H(x_i))}}{\partial{H(x_i)}}|_{H(x_i)=H_{k-1}(x_i)}$
$h_{ik} = \frac{\partial^2{l(y_i,H(x_i))}}{\partial{H^2(x_i)}}|_{H(x_i)=H_{k-1}(x_i)}$
$r_{ik} = -\frac{g_{ik}}{h_{ik}}$

证明 $r_{ik}$ :
$\begin{aligned} & \sum_{i=1}^N\left(g_i f_t\left(\mathbf{x}_{\mathbf{i}}\right)+\frac{1}{2} h_i f_t^2\left(\mathbf{x}_{\mathbf{i}}\right)\right)+\Omega\left(f_t\right) \\ = & \sum_{i=1}^N \frac{1}{2} h_i\left(2 \frac{g_i}{h_i} f_t\left(\mathbf{x}_{\mathbf{i}}\right)+f_t^2\left(\mathbf{x}_{\mathbf{i}}\right)\right)+\Omega\left(f_t\right) \\ = & \sum_{i=1}^N \frac{1}{2} h_i\left(\frac{g_i^2}{h_i^2}+2 \frac{g_i}{h_i} f_t\left(\mathbf{x}_{\mathbf{i}}\right)+f_t^2\left(\mathbf{x}_{\mathbf{i}}\right)\right)+\Omega\left(f_t\right) \\ = & \sum_{i=1}^N \frac{1}{2} h_i\left(f_t\left(\mathbf{x}_{\mathbf{i}}\right)-\left(-\frac{g_i}{h_i}\right)\right)^2+\Omega\left(f_t\right)(\Omega可忽略,下面会解释)\end{aligned}$

$\begin{aligned} 目标函数 &= \sum_{j=1}^T \left( \boldsymbol{\color{red}{w_j\sum_{i \in j} g_i + \frac{1}{2}w^2_j(\sum_{i \in j} h_i + \lambda)}} \right) + \gamma T\end{aligned}$

将标注为红色的部分命名为 $\mu_j$

对任意位于叶子 $j$ 上的样本 $i$ 来说：

$\mu_i = w_jg_i + \frac{1}{2}w^2_j(h_i+\lambda)$

将一片叶子上的 $\mu_j$ 转变成 $\mu_i$ （i:叶子节点上的某个样本）时，原则上需要将 $\mu_j$ 中的每一项都转换为单个样本所对应的项，然而在转换正则项时则存在问题：与 $\sum_{i \in j} g_i$ (可以直接指向单个样本的项)不同， $\lambda$ 是针对与一片叶子设置的值，如果要将 $\lambda$ 转变为针对单一样本的正则项，则需要知道当前叶子上一共有多少样本。然而，拟合发生在建树之前(在算法流程中拟合步骤在建树步骤之前），因此在这一时间点不可能知道一片叶子上的样本总量，因此在xgboost的实际实现过程当中，拟合每一片叶子时不涉及正则项，只有在计算结构分数与叶子输出值时才使用正则项。

对 $\mu_i$ 上唯一的自变量 $w_j$ 求导，则有：

$\begin{aligned}\frac{\partial{\mu_i}}{\partial w_j} &= \frac{\partial{\left( w_jg_i + \frac{1}{2}w^2_jh_i \right)}}{\partial w_j} \\ \\ &= g_i + w_jh_i\end{aligned}$

令一阶导数为0，则有：

$\begin{aligned} g_i + w_jh_i &= 0 \\ \\ w_jh_i &= - g_i \\ \\ w_j &= -\frac{g_i}{h_i} \end{aligned}$

对任意样本 $i$ 而言，令目标函数最小的最优 $w_j$ 就是我们的伪残差 $r_i$ ，也就是XGBoost数学流程当中用于进行拟合的拟合值。

4) 建树

求解出伪残差后，在数据集 $x_i, r_{ik})$ 上按colsample_by*（这个是sklearn的超参数，在xgboost代码章节中会讲到）规则进行抽样，再按照结构分数增益规则建立一棵回归树 $f_k$ 。注意在这个过程中，训练时拟合的标签为样本的伪残差 $r_{ik}$ ，并且叶子节点 $j$ 的结构分数和任意分枝时的结构分数增益的公式为： $Score_j = \frac{(\sum_{i \in j}g_i)^2}{\sum_{i \in j}h_i + \lambda}$

$\frac{1}{2} \left( \frac{(\sum_{i \in L}g_i)^2}{\sum_{i \in L}h_i + \lambda} + \frac{(\sum_{i \in R}g_i)^2}{\sum_{i \in R}h_i + \lambda} - \frac{(\sum_{i \in P}g_i)^2}{\sum_{i \in P}h_i + \lambda} \right) - \gamma$

建树过程不影响任何 $g_{ik}$ 与 $h_{ik}$ 的值。

5) 输出树上的结果

建树之后，依据回归树 $f_k$ 的结构输出叶子节点上的输出值（预测值）。对任意叶子节点 $j$ 来说，输出值为：
$w_j = -\frac{\sum_{i \in j}g_{ik}}{\sum_{i \in j}h_{ik} + \lambda}$

假设样本 $i$ 被分割到叶子 $j$ 上，则有：
$f_k(x_i) = w_j$

思考：在迭代刚开始时我们已经知道了输出值式子中所需的所有 $g$ 和 $h$ 。为什么还要建树呢？

只有当我们建立了决策树，我们才能够知道具体哪些样本 $i$ 在叶子节点 $j$ 上。因此树 $f_k$ 提供的是结构信息。

6) 迭代
根据预测结果 $f_k(x_i)$ 迭代模型，具体来说：
$H_k(x_i) = H_{k-1}(x_i) + f_k(x_i)$
假设输入的步长为 $\eta$ ，则 $H_k(x)$ 应该为：
$H_k(x_i) = H_{k-1}(x_i) + \eta f_k(x_i)$
对整个算法则有：
$H_k(x) = H_{k-1}(x) + \eta f_k(x)$
7) 循环结束

输出 $H_K(x)$ 的值作为集成模型的输出值。