GBDT分类树理论推导--全网最详细理论推导

金鸡湖最后的张万森

于 2023-12-26 13:26:07 发布

阅读量428

点赞数 11

分类专栏：机器学习集成学习文章标签：集成学习机器学习

本文链接：https://blog.csdn.net/Alex_sdhjkb/article/details/135219454

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

集成学习

7 篇文章 1 订阅

订阅专栏

参考：

https://zhuanlan.zhihu.com/p/47185756
https://zhuanlan.zhihu.com/p/494536555
https://zhuanlan.zhihu.com/p/465921554
https://zhuanlan.zhihu.com/p/91652813
https://zhuanlan.zhihu.com/p/89614607

GBDT用于分类的时候，并不是(像随机森林）用Gini或者熵的方式划分特征空间实现分类，由于需要拟合残差，GBDT实际上是在学习样本在每个类别上的得分

二分类

情况1（ $\in \left \{-1，1\right \}$ ）

在论文【Friedman J H. Greedy function approximation: a gradient boosting machine[J]. Annals of statistics, 2001: 1189-1232.】中二分类 $\in \left \{-1，1\right \}$ ,则损失函数的表达式为 $F)=\log (1+\exp (-2 y F))(系数2是作者自己加上去的)$

对数损失函数

对数损失函数的标准形式： $\mid x))=-\log P(Y=y \mid x)$

逻辑回归 $\mid x)$ 表达式：

当y=1时： $\mid x)=h_\theta(x)=g(f(x))=\frac{1}{1+e^{-f(x)}}$
当y=-1时： $\mid x)=1-h_\theta(x)=1-g(f(x))=1-\frac{1}{1+e^{-f(x)}}=\frac{e^{-f(x)}}{1+e^{-f(x)}}=\frac{1}{1+e^{f(x)}}$

将它带入到对数损失函数的标准形式，通过推导可以得到logistic的损失函数表达式如下：

$\mid x))= \begin{cases}-\log \left(\frac{1}{1+e^{-f(x)}}\right) & y=1 \\ -\log \left(\frac{1}{1+e^{f(x)}}\right) & y=-1\end{cases}$

等价于

$\mid x))= \begin{cases}\log (1+e^{-f(x)}) & y=1 \\ \log (1+e^{f(x)}) & y=-1\end{cases}$

当分的两类为 {1,−1} 时，逻辑回归的表达式 $\mid x)$ 可以合并如下

$\mid x)=\frac{1}{1+e^{-y f(x)}}$

将它带入到对数损失函数的标准形式，通过推导可以得到logistic的损失函数表达式如下：

$\mid x))=\log \left(1+e^{-y f(x)}\right)$

若 $\in Y=\{0,1\}$ ，则逻辑回归最后得到的目标式子如下:

$J(\theta)=-\frac{1}{m}\sum_{i=1}^m\left[ y^{(i)} \log h_\theta\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h_\theta\left(x^{(i)}\right)\right)\right]$

残差可以表示为
$r_{mi}=-\left.\frac{\partial L\left(y_i, F\left(x_i\right)\right)}{\partial F\left(x_i\right)}\right|_{F\left(x_i\right)=F_{m-1}\left(x_i\right)}=\frac{2 y_i}{1+\exp \left(2 y_i F_{m-1}\left(x_i\right)\right)}$

推导:

$\begin{aligned} & \because L(y, F)=\log (1+\exp (-2 y F)) \\ & \therefore \frac{\partial L\left(y_i, F\left(x_i\right)\right.}{\partial F\left(x_i\right)}=\frac{\exp \left(-2 y_i F\left(x_i\right)\right)\left(-2 y_i\right)}{1+\exp \left(-2 y_i F\left(x_i\right)\right)}=\left(-2 y_i\right)\left[1-\frac{1}{1+\exp \left(-2 y_i F(x_i)\right)}\right] \\ & =-2 y_i+2 y_i \cdot \frac{1}{1+\exp \left(-2 y_i F\left(x_i\right))\right.} \\ & \frac{\partial^2 L\left(y_i, F\left(x_i\right)\right)}{\partial F^2\left(x_i\right)}=2 y_i \frac{1}{1+\exp \left(-2 y_i F\left(x_i\right)\right)} \cdot \frac{\exp \left(-2 y_i F\left(x_i\right)\right)}{1+\exp \left(-2 y_i F\left(x_i\right)\right)} \cdot\left(2 y_i\right) (注意：把2y_iF(x_i)整体看成\frac{1}{1+e^{-x}}的x) \\ & \text { 而 } r_{m i}=-\left.\frac{\partial L\left(y_i, F\left(x_i\right)\right)}{\partial F_{\left(x_i\right)}}\right|_{F_{\left(x_i\right)}= F_{m-1}\left(x_i\right)}=2 y_i\left[\frac{1}{1+\exp \left(-2 y_i F_{m-1}\left(x_i\right)\right.)}-1\right] \\ & =(2 y_i) \frac{\exp \left(-2 y_i F_{m-1}\left(x_i\right)\right)}{1+\exp \left(-2 y_i F_{m-1}{\left(x_i\right)}\right)}=(2 y_i) \frac{1}{\left.\exp \left(2 y_i F_{m-1}{(} x_i\right)\right)+1} \\ & \end{aligned}$

$而\gamma_{l m}=\arg \min _\rho \sum_{i=1}^N \log \left(1+\exp \left(-2 y_i\left(F_{m-1}\left(\mathbf{x}_i\right)+\gamma_{lm}I(x_i\in R_{jm}\right)\right)\right)\\ (拆分到各个叶子节点）=\arg \min _\gamma \sum_{\mathbf{x}_i \in R_{j m}} \log \left(1+\exp \left(-2 y_i\left(F_{m-1}\left(\mathbf{x}_i\right)+\gamma_{lm}I(x_i\in R_{jm}\right)\right)\right)$ ，
$\gamma_{lm}^*=\gamma_{l m} I(x_i \in R_{jm})=\arg \min _\gamma \sum_{\mathbf{x}_i \in R_{l m}} \log \left(1+\exp \left(-2 y_i\left(F_{m-1}\left(\mathbf{x}_i\right)+\gamma\right)\right)\right)\\ =\operatorname{argmin}_\gamma \sum_{x_i \in R_{j m}} L(y_i, F_{m-1}(x_i)+\gamma)(注：在F_{m-1}(x_i)处泰勒展开)\\=argmin\sum_{x_i \in R_{j m}} L\left(y_i, F_{m-1}\left(x_i\right)\right)+\partial L\left(y_i, F_{m-1}\left(x_i\right)\right) \gamma+\frac{1}{2} \partial^2 L\left(y_i, F_{m-1}\left(x_i\right)\right) \gamma^2$

$\gamma_{lm}^* =【注意：-\frac{b}{2a}】-\frac{\sum_{x_i \in R_{j m}} \partial L\left(y_i, F_{m-1}(x_i)\right)}{\sum_{x_i \in R_{j m}} \partial^2 L\left(y_i, F_{m-1}(x_i)\right)}=\frac{\sum_{x_i \in R_{j m}} r_{mi}}{\sum_{x_i \in R_{j m}}\left|r_{mi}\right|\left|2-r_{mi}\right|} $(证明过程见上面图片）

伪代码

注： $F_0(x)=\frac{1}{2}\frac{P(Y=1|X)}{P(Y=-1|X)}(论文中对\bar{y}未详细解释)$

v2-42ab959ebccef1e34815c922a3848013_1440w

情况2（ $\in \left \{0，1\right \}$ ）

单个样本的损失函数 $J(\theta)= y_i \log h_\theta\left(x_i\right)+\left(1-y_i\right) \log \left(1-h_\theta\left(x_i\right)\right)$

对于GBDT二分类来说，其单个样本的损失函数为 $L\left(y_i, F\left(x_i\right)\right)=-[y_ilog(\frac{1}{1+e^{-F(x_i)}})+(1-y_i)log(1-\frac{1}{1+e^{-F(x_i)}})]\\ =y_ilog(1+e^{-F(x_i)})-(1-y_i)log(\frac{e^{-F(x_i)}}{1+e^{-F(x_i)}})\\=y_i \log \left(1+e^{-F\left(x_i\right)}\right)+\left(1-y_i\right)\left[F\left(x_i\right)+\log \left(1+e^{-F\left(x_i\right)}\right)\right]$

step1: 初始化第一个弱分类器 $F_0(x)=log(\frac{P(Y=1|x)}{1-P(Y=1|x)})$

证明：

其中， $P (Y = 1∣ x)$ 是训练样本中 y=1 的比例，利用先验信息来初始化学习器。

step2:建立M棵分类回归树
- 对于建立第m棵树时，对于样本i=1,2,…,N, 计算第m棵树对应的负梯度 $r_{m i}=-\left[\frac{\partial L\left(y_i, F\left(x_i\right)\right)}{\partial F(x)}\right]_{F(x)=F_{m-1}(x)}=y_i-\frac{1}{1+e^{-F\left(x_i\right)}}$
证明：
- 对于i=1,2,…,N ，利用CART回归树拟合数据 $x_i, r_{m,i})$ ，得到第 m 棵回归树，其对应的叶子节点区域为 $R_{m,j}$ ,其中 j=1,2,…, $J_m$ ，且 $J_m$ 为第m棵回归树叶子节点的个数。
- 对于 $J_m$ 个叶子节点区域 j=1,2,…, $J_m$ ，计算出最佳拟合值： $c_{m, j}=\frac{\sum_{x_i \in R_{m, j}} r_{m, i}}{\sum_{x_i \in R_{m, j}}\left(y_i-r_{m, i}\right)\left(1-y_i+r_{m, i}\right)}$
  
  证明：
  
  补充近似值代替过程（用牛顿法迭代来求解）：
  假设仅有一个样本: $L\left(y_i, F(x)\right)=-\left(y_i \ln \frac{1}{1+e^{-F(x)}}+\left(1-y_i\right) \ln \left(1-\frac{1}{1+e^{-F(x)}}\right)\right)$
  
  令 $P_i=\frac{1}{1+e^{-F(x)}}$ ，则 $\frac{\partial P_i}{\partial F(x)}=P_i\left(1-P_i\right)（Sigmoid激活函数求导）=-[y_ilogp_i+(1-y_i)log(1-p_i))]$
  
  求一阶导:
  $\begin{aligned} \frac{\partial L\left(y_i, F(x)\right)}{\partial F(x)} & =\frac{\partial L\left(y_i, F(x)\right)}{\partial P_i} \cdot \frac{\partial P_i}{\partial F(x)} \\ & =-\left(\frac{y_i}{P_i}-\frac{1-y_i}{1-P_i}\right) \cdot\left(P_i \cdot\left(1-P_i\right)\right) \\ & =P_i-y_i \end{aligned}$
  
  求二阶导:
  $\begin{aligned} \frac{\partial^2 L\left(y_i, F(x)\right)}{\partial F(x)^2} & =\left(P_i-y_i\right)^{\prime} \\ & =P_i\left(1-P_i\right) \end{aligned}$
  
  对于 $L\left(y_i, F(x)+c\right)$ 的泰勒二阶展开式( $c=argmin_cL\left(y_i, F(x)+c\right)$ ):
  $L\left(y_i, F(x)+c\right)=L\left(y_i, F(x)\right)+\frac{\partial L\left(y_i, F(x)\right)}{\partial F(x)} \cdot c+\frac{1}{2} \frac{\partial^2 L\left(y_i, F(x)\right)}{\partial F(x)^2} c^2$
  $L\left(y_i, F(x)+c\right)$ 取极值时，上述二阶表达式中的c为:
  $\begin{aligned} c & =-\frac{b}{2 a}=-\frac{\frac{\partial L\left(y_i, F(x)\right)}{\partial F(x)}}{2\left(\frac{1}{2} \frac{\partial^2 L\left(y_i, F(x)\right)}{\partial F(x)^2}\right)} \\ & =-\frac{\frac{\partial L\left(y_i, F(x)\right)}{\partial F(x)}}{\left.\frac{\partial^2 L\left(y_i, F(x)\right)}{\partial F(x)^2}\right)} \stackrel{\text { 一阶、二阶导代入 }}{\Rightarrow} \frac{y_i-P_i}{P_i\left(1-P_i\right)} \\ & \stackrel{r_{mi}=y_i-P_i}{\Rightarrow} \frac{r_{mi}}{(y_i-r_{mi})\left(1-y_i+r_{mi}\right)} \end{aligned}$
  最后再在一阶导和二阶导求解时加上 $\sum_{x_i \in R_{m,j}}$ ,得到上式结果
- 更新强学习器 $F_m(x)$ :
  $F_m(x)=F_{m-1}(x)+\sum_{j=1}^{J_m} c_{m, j} I\left(x \in R_{m, j}\right)$
step3:得到最终的强学习器 $F_M(x)$ 的表达式:
$F_M(x)=F_0(x)+\sum_{m=1}^M \sum_{j=1}^{J_m} c_{m, j} I\left(x \in R_{m, j}\right)$

GBDT二分类算法实例

训练集如下表所示，一组数据的特征有年龄和体重，把身高大于1.5米作为分类边界，身高大于1.5米的令标签为1，身高小于等于1.5米的令标签为0，共有4组数据。

v2-f985b918beb9465e1f1d63d4df26653d_r

测试数据如下表所示，只有一组数据，年龄为25、体重为65，我们用在训练集上训练好的GBDT模型预测该组数据的身高是否大于1.5米？

v2-b86998f87dd21433d45247347081b561_1440w

模型训练阶段

参数设置：

学习率learning_rate = 0.1
迭代次数：n_trees = 5
树的深度：max_depth = 3

算法流程：

初始化弱学习器：

$F_0(x)=\log \frac{P(Y=1 \mid x)}{1-P(Y=1 \mid x)}=\log \frac{2}{2}=0$
建立M棵回归树（m=1,2,…,M):
1. 计算负梯度 $r_{m, i}=-\left[\frac{\partial L\left(y_i, F\left(x_i\right)\right)}{\partial F(x)}\right]_{F(x)=F_{m-1}(x)}=y_i-\frac{1}{1+e^{-F\left(x_i\right)}}$
  
  最后的计算结果如下：
  
  此时将残差作为样本的标签来训练弱学习器 $F_1(x)$ ，即下表数据：

接着寻找回归树的最佳划分节点，遍历每个特征的每个可能取值。从年龄特征值为5开始，到体重特征为70结束，分别计算分裂后两组数据的平方损失（Square Error）， $SSE_L$ 为左节点的平方损失， $SSE_R$ 为右节点的平方损失，找到使平方损失和$SSE_{sum}=SSE_L+SSE_R $最小的那个划分节点，即为最佳划分节点。

例如：以年龄7为划分节点，将小于7的样本划分为到左节点，大于等于7的样本划分为右节点。左节点包括 $x_0$ ，右节点包括样本$x_1,x_2,x_3， SSE_L=0， SSE_R=0.667，SSE_{sum}=0.667 $，所有可能的划分情况如下表所示：

v2-1a902785ce01139828a3449e8b8f7993_1440w

以上划分点的总平方损失最小为0.000，有两个划分点：年龄21和体重60，所以随机选一个作为划分点，这里我们选年龄21。现在我们的第一棵树长这个样子：

v2-46ec3591fbaafaa1ce80ae66501e9296_1440w

我们设置的参数中树的深度max_depth=3，现在树的深度只有2，需要再进行一次划分，这次划分要对左右两个节点分别进行划分，但是我们在生成树的时候，设置了三个树继续生长的条件：

深度没有到达最大。树的深度设置为3，意思是需要生长成3层。
点样本数 >= min_samples_split
*此节点上的样本的标签值不一样（如果值一样说明已经划分得很好了，不需要再分）（本程序满足这个条件，因此树只有2层）*

最终我们的第一棵回归树长下面这个样子：

此时我们的树满足了设置，还需要做一件事情，给这棵树的每个叶子节点分别赋一个参数 $c_{m,j}$ ，来拟合残差。

$c_{1, j}=\frac{\sum_{x_i \in R_{1, j}} r_{1, i}}{\sum_{x_i \in R_{1, j}}\left(y_i-r_{1, i}\right)\left(1-y_i+r_{1, i}\right)}$

根据上述划分结果，为了方便表示，规定从左到右为第1,2个叶子结点，其计算值过程如下：

$\begin{array}{ll}\left(x_0, x_1 \in R_{1,1}\right), & c_{1,1}=\frac{-0.5-0.5}{[(0-(-0.5))*(1-0+(-0.5))]*2}=-2.0 \\ \left(x_2, x_3 \in R_{1,2}\right), & c_{1,2}=2.0\end{array}$

此时的第一棵树长下面这个样子：

v2-6306341d6ef4848a017c03d8496ed6b6_1440w

接着更新强学习器，需要用到学习率（这是Shrinkage的思想，如果每次都全部加上拟合值，即学习率为1，很容易一步学到位导致GBDT过拟合）：learning_rate=0.1，用lr表示。更新公式为：

$F_1(x)=F_0(x)+l r * \sum_{j=1}^2 c_{1, j} I\left(x \in R_{1, j}\right)$

**重复此步骤，直到m>5结束，最后生成5棵树强学习器 $F_5(x)=F_0(x)+lr * \sum_{m=1}^5 \sum_{j=1}^2 c_{m, j} I\left(x \in R_{m, j}\right)$ 。

第一棵树

第二棵树

上一轮得到的 $F_1(x)=F_0(x)+l r * \sum_{j=1}^2 c_{1, j} I\left(x \in R_{1, j}\right)$

$R_{1,1}:F_1(x)=F_0(x)+0.1*c_{1,1}=-0.2\\R_{1,2}:F_1(x)=F_0(x)+0.1*c_{1,2}=0.2$

计算负梯度 $r_{m, i}=-\left[\frac{\partial L\left(y_i, F\left(x_i\right)\right)}{\partial F(x)}\right]_{F(x)=F_{1}(x)}=y_i-\frac{1}{1+e^{-F_1\left(x_i\right)}}$

$R_{2,1}:r_{1, i}=0-\frac{1}{1+e^{0.2}}=-\frac{1}{1+e^{0.2}}\\R_{2,2}:F_1(x)=0-\frac{1}{1+e^{-0.2}}=-\frac{1}{1+e^{-0.2}}$

给这棵树的每个叶子节点分别赋一个参数 $c_{m,j}$ ，来拟合残差。

$c_{2, j}=\frac{\sum_{x_i \in R_{2, j}} r_{1, i}}{\sum_{x_i \in R_{2, j}}\left(y_i-r_{2, i}\right)\left(1-y_i+r_{2, i}\right)}$

$\begin{array}{ll}\left(x_0, x_1 \in R_{2,1}\right), & c_{2,1}=\frac{-\frac{1}{1+e^{-0.2}}-\frac{1}{1+e^{-0.2}}}{[(0-(-\frac{1}{1+e^{-0.2}}))*(1-0+(-\frac{1}{1+e^{-0.2}}))]*2}=\frac{1}{\frac{1}{1+e^2}-1}=-1.8187 \\ \left(x_2, x_3 \in R_{2,2}\right), & c_{2,2}=1.8187\end{array}$

第三棵树

第四棵树

第五棵树

模型预测阶段

$F_0(x)=0$
在 $F_1(x)$ 中，测试样本的年龄为25，大于划分节点21岁，所以被预测为2.0000。
在 $F_2(x)$ 中，测试样本的年龄为25，大于划分节点21岁，所以被预测为1.8187。
在 $F_3(x)$ 中，测试样本的年龄为25，大于划分节点21岁，所以被预测为1.6826。
在 $F_4(x)$ 中，测试样本的年龄为25，大于划分节点21岁，所以被预测为1.5769。
在 $F_5(x)$ 中，测试样本的年龄为25，大于划分节点21岁，所以被预测为1.4927。
最终预测结果为： $\begin{aligned} & F(x)=0.0000+0.1 *(2.0000+1.8187+1.6826+1.5769+1.4927)=0.8571 \\ & P(Y=1 \mid x)=\frac{1}{1+e^{-F(x)}}=\frac{1}{1+e^{-0.8571}}=0.7021\end{aligned}$

GBDT多分类

softmax损失函数

当使用逻辑回归处理多标签的分类问题时，如果一个样本只对应于一个标签，我们可以假设每个样本属于不同标签的概率服从于几何分布，使用多项逻辑回归（Softmax Regression）来进行分类：
$\begin{aligned} P\left(Y=y_i \mid x\right)=h_\theta(x)\left[\begin{array}{c} P(Y=1 \mid x ; \theta) \\ P(Y=2 \mid x ; \theta) \\ \cdot \\ \cdot \\ \cdot \\ P(Y=k \mid x ; \theta) \end{array}\right] \\ =\frac{1}{\sum_{j=1}^k e^{\theta_j^T x}}\left[\begin{array}{c} e^{\theta_1^T x} \\ e^{\theta_2^T x} \\ \cdot \\ \cdot \\ \cdot \\ e^{\theta_k^T x} \end{array}\right] \end{aligned}$
其中， $\theta_1, \theta_2, \ldots, \theta_k \in \mathfrak{R}^n$ 为模型的参数，而 $\frac{1}{\sum_{j=1}^k e^{\theta_j^T x}}$ 可以看作是对概率的归一化。一般来说，多项逻辑回归具有参数冗余的特点，即将 $\theta_1, \theta_2, \ldots, \theta_k$ 同时加减一个向量后预测结果不变，因为 $\mid x)+P(Y=2 \mid x)+\ldots+P(Y=k \mid x)=1$ ，所以 $\mid x)=1-P(Y=2 \mid x)-\ldots-P(Y=k \mid x)$ 。

假设从参数向量 $\theta_j^T$ 中减去向量 $\psi$ ，这时每一个 $\theta_j^T$ 都变成了 $\theta_j^T-\psi(j=1,2, \ldots, k)$ 。此时假设函数变成了以下公式:

$\begin{aligned} P\left(Y=y_j \mid x ; \theta\right) & =\frac{e^{\theta_j^T x}}{\sum_{i=1}^k e^{\theta_i^T x}} \\ & =\frac{e^{\left(\theta_j^T-\psi\right) x}}{\sum_{i=1}^k e^{\left(\theta_i^T-\psi\right) x}} \\ & =\frac{e^{\theta_j^T x} \times e^{-\psi x}}{\sum_{i=1}^k e^{\theta_i^T x} \times e^{-\psi x}} \\ & =\frac{e^{\theta_j^T x}}{\sum_{i=1}^k e^{\theta_i^T x}}\end{aligned}$

从上式可以看出，从 $\theta_j^T$ 中减去 $\psi$ 完全不影响假设函数的预测结果，这表明前面的Softmax回归模型中存在冗余的参数。特别地，当类别数为 2 时，
$h_\theta(x)=\frac{1}{e^{\theta_1^T x}+e^{\theta_2^T x}}\left[\begin{array}{l} e^{\theta_1^T x} \\ e^{\theta_2^T x} \end{array}\right]$

利用参数冗余的特点，我们将所有的参数减去 $\theta_1$ ，上式变为:
$\begin{aligned} h_\theta(x) & =\frac{1}{e^{0 \cdot x}+e^{\left(\theta_2^T-\theta_1^T\right) x}}\left[\begin{array}{c} e^{0 \cdot x} \\ e^{\left(\theta_2^T-\theta_1^T\right) x} \end{array}\right] \\ & =\left[\begin{array}{c} \frac{1}{1+e^{\theta^T x}} \\ 1-\frac{1}{1+e^{\theta^T x}} \end{array}\right] \end{aligned}$

其中 $\theta=\theta_2-\theta_1$ 。而整理后的式子与逻辑回归一致。因此，多项逻辑回归实际上是二分类逻辑回归在多标签分类下的一种拓展。

当存在样本可能属于多个标签的情况时，我们可以训练 $k$ 个二分类的逻辑回归分类器。第 $i$ 个分类器用以区分每个样本是否可以归为第 $i$ 类，训练该分类器时，需要把标签重新整理为 “第 $i$ 类标签” 与 “非第 $i$ 类标签” 两类。通过这样的办法，我们就解决了每个样本可能拥有多个标签的情况。

在二分类的逻辑回归中，对输入样本 $x$ 分类结果为类别1和 0 的概率可以写成下列形式:
$\mid x ; \theta)=\left(h_\theta(x)\right)^y\left(1-h_\theta(x)\right)^{1-y}$

其中， $h_\theta(x)=\frac{1}{1+e^{-\theta^T x}}$ 是模型预测的概率值， $y$ 是样本对应的类标签。

将问题泛化为更一般的多分类情况:
$P\left(Y=y_i \mid x ; \theta\right)=\prod_{i=1}^K P\left(y_i \mid x\right)^{y_i}=\prod_{i=1}^K h_\theta(x)^{y_i}$

由于连乘可能导致最终结果接近 0 的问题，一般对似然函数取对数的负数，变成最小化对数似然函数。
$-\log P\left(Y=y_i \mid x ; \theta\right)=-\log \prod_{i=1}^K P\left(y_i \mid x\right)^{y_i}=-\sum_{i=1}^K y_i \log \left(h_\theta(x)\right)$

GBDT多分类原理

将GBDT应用于二分类问题需要考虑逻辑回归模型，同理，对于GBDT多分类问题则需要考虑以下 Softmax模型:
$\begin{gathered} P(y=1 \mid x)=\frac{e^{F_1(x)}}{\sum_{i=1}^k e^{F_i(x)}} \\ P(y=2 \mid x)=\frac{e^{F_2(x)}}{\sum_{i=1}^k e^{F_i(x)}} \\ \ldots \\ \cdots \\ P(y=k \mid x)=\frac{e^{F_k(x)}}{\sum_{i=1}^k e^{F_i(x)}} \end{gathered}$

其中 $F_1 \ldots F_k$ 是 $k$ 个不同的CART回归树集成。每一轮的训练实际上是训练了 $k$ 棵树去拟合 softmax的每一个分支模型的负梯度。softmax模型的单样本损失函数为:
$\text { loss }=-\sum_{i=1}^k y_i \log P\left(y_i \mid x\right)=-\sum_{i=1}^k y_i \log \frac{e^{F_i(x)}}{\sum_{j=1}^k e^{F_j(x)}}$
伪代码

v2-2ff9038d2b798c3d36dc8e8d5d41ec4d_1440w

对于训练过程的解释：

第一步我们在训练的时候，是针对样本 $x$ 每个可能的类都训练一个分类回归树。举例说明，目前样本有三类，也就是 $K = 3$ ，样本 $x$ 属于第二类。那么针对该样本的分类标签，其实可以用一个三维向量 $[0, 1, 0]$ 来表示。 0 表示样本不属于该类， 1 表示样本属于该类。由于样本已经属于第二类了，所以第二类对应的向量维度为 1 ，其它位置为 0 。

针对样本有三类的情况，我们实质上在每轮训练的时候是同时训练三颗树。第一颗树针对样本 $x$ 的第一类，输入为 $(x, 0)$ 。第二颗树输入针对样本 $x$ 的第二类，输入为 $(x, 1)$ 。第三颗树针对样本 $x$ 的第三类，输入为 $(x, 0)$ 。这里每颗树的训练过程其实就CART树的生成过程。在此我们参照CART生成树的步骤即可解出三颗树，以及三颗树对 $x$ 类别的预测值 $F_1(x), F_2(x), F_3(x)$ ，那么在此类训练中，我们仿照多分类的逻辑回归，使用Softmax 来产生概率，则属于类别 1 的概率为:
$p_1(x)=\frac{\exp \left(F_1(x)\right)}{\sum_{k=1}^3 \exp \left(F_k(x)\right)}$

并且我们可以针对类别 1 求出残差 $\tilde{y}_1=0-p_1(x)$ ；类别 2 求出残差 $\tilde{y}_2=1-p_2(x)$ ；类别 3 求出残差 $\tilde{y}_3=0-p_3(x)$ 。

然后开始第二轮训练，针对第一类输入为 $\left(x, \tilde{y}_1\right)$ ，针对第二类输入为 $\left(x, \tilde{y}_2\right)$ ，针对第三类输入为 $\left(x, \tilde{y}_3\right)$ 。继续训练出三颗树。一直迭代M轮。每轮构建 3 颗树。

当 K=3 时，我们其实应该有三个式子:
$\begin{aligned} & F_{1 M}(x)=\sum_{m=1}^M c_{1 m} I\left(x \epsilon R_{1 m}\right) \\ & F_{2 M}(x)=\sum_{m=1}^M c_{2 m} I\left(x \epsilon R_{2 m}\right) \\ & F_{3 M}(x)=\sum_{m=1}^M c_{3 m} I\left(x \epsilon R_{3 m}\right) \end{aligned}$
当训练完以后，对于新样本，我们要预测该样本类别的时候，便可以有这三个式子产生三个值 $F_{1M},F_{2M},F_{3M}$ 。样本属于某个类别的概率为： $p_i(x)=\frac{\exp \left(F_{i M}(x)\right)}{\sum_{k=1}^3 \exp \left(F_{k M}(x)\right)}$

推导 $\tilde{y}_{ik}$

推导 $\gamma_{jkm}$

)

注意:权重的 $\frac{k-1}{k}$ 我还是没有证出来，有大佬回证的可以在评论区说一下哈

GBDT多分类实例

数据集

$\begin{array}{|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|} \hline x_i & 6 & 12 & 14 & 18 & 20 & 65 & 31 & 40 & 1 & 2 & 100 & 101 & 65 & 54 \\ \hline y_i & 0 & 0 & 0 & 0 & 0 & 1 & 1 & 1 & 1 & 1 & 2 & 2 & 2 & 2 \\ \hline \end{array}$

模型训练阶段

首先，由于我们需要转化3个二分类的问题，所以需要先做一步one-hot：
$\begin{array}{|c|c|c|c|c|c|c|c|c|c|c|c|c|c|c|} \hline x_i & 6 & 12 & 14 & 18 & 20 & 65 & 31 & 40 & 1 & 2 & 100 & 101 & 65 & 54 \\ \hline y_i & 0 & 0 & 0 & 0 & 0 & 1 & 1 & 1 & 1 & 1 & 2 & 2 & 2 & 2 \\ \hline y_{i, 0} & 1 & 1 & 1 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ \hline y_{i, 1} & 0 & 0 & 0 & 0 & 0 & 1 & 1 & 1 & 1 & 1 & 0 & 0 & 0 & 0 \\ \hline y_{i, 2} & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 1 & 1 \\ \hline \end{array}$

参数设置：
学习率：learning_rate = 1
树的深度：max_depth = 2
迭代次数：n_trees = 5

先对所有的样本，进行初始化 $F_{k0}(x_i)=\frac{count(k)}{count(n)}$ ，就是各类别在总样本集中的占比，结果如下表。
对第一个类别 ( $y_i$ =0) 拟合第一颗树 m=1)

v2-ec002ab2961e0db569a3fae02913d3d1_1440w

利用公式 $p_{k, m}(x)=\frac{e^{F_{k, m}(x)}}{\sum_{l=1}^K e^{F_{l, m}(x)}}$ 计算概率。
计算负梯度值，以 $x_1$ 为例 (k=0,i=1) ：

$\begin{aligned} & \tilde{y}_{i k}=y_{i, k}-p_{k, m-1} \\ & \tilde{y}_{10}=y_{1,0}-p_{0,0}=1-\frac{e^{F_{0,0}(x_1)}}{e^{F_{0,0}(x_1)}+e^{F_{1,0}(x_1)}+e^{F_{2,0}(x_1)}}\approx0.6588\end{aligned}$

同样地，计算其它样本可以有下表：

v2-788cfbbb2ca1ea019b5b15e075442533_1440w

寻找回归树的最佳划分节点。在GBDT的建树中，可以采用如MSE、MAE等作为分裂准则来确定分裂点。本文采用的分裂准则是MSE，具体计算过程如下。遍历所有特征的取值，将每个特征值依次作为分裂点，然后计算左子结点与右子结点上的MSE，寻找两者加和最小的一个.

比如，选择 $x_8=1$ 作为分裂点时 $(x < 1)$ 。
左子结点上的集合的MSE为:
$M S E_{l e f t}=0$

右子节点上的集合的MSE为:
$\begin{aligned} M S E_{\text {right }} & =(0.6588-0.04342)^2+\ldots+(-0.3412-0.04342)^2 \\ & =3.2142 \end{aligned}$

对所有特征计算完后可以发现，当选择 $x_6=31$ 做为分裂点时，可以得到最小的MSE， $MSE = 1.42857$ 。
对 $x_6=31$ 拟合第一棵回归树
给这棵树的每个叶子节点分别赋一个参数 $\gamma_{jkm}$ ，来拟合残差。

$\gamma_{101}=\frac{0.6588*5+(-0.3412)*2}{0.6588*(1-0.6588)*5+0.3412*(1-0.3412)*2}*\frac{2}{3}\approx1.1066$

$\gamma_{201}=-1.0119$

最后，更新 $F_{k m}\left(x_i\right)$ 可得下表:
$F_{k m}\left(x_i\right)=F_{k, m-1}\left(x_i\right)+\eta * \sum_{x_i \in R_{j k m}} \gamma_{j k m} * I\left(x_i \in R_{j k m}\right)$

$x_(i)$	6	12	14	18	20	65	31	40	1	2	100	101	65	54
$F_{0,1}(x_i)$	1.4638	1.4638	1.4638	1.4638	1.4638	-0.6548	-0.6548	-0.6548	1.4638	1.4638	-0.6548	-0.6548	-0.6548	-0.6548

至此第一个类别 (类别0) 的第一颗树拟合完毕，下面开始拟合第二个类别（类别 1 ) 的第一棵树，按照上述过程建立其他两个类别。反复进行，直到训练了M轮。

GBDT与AdaBoost的不同

弱评估器

GBDT的弱评估器输出类型不再与整体集成算法输出类型一致。对于AdaBoost或随机森林算法来说，当集成算法执行的是回归任务时，弱评估器也是回归器，当集成算法执行分类任务时，弱评估器也是分类器。但对于GBDT而言，无论GBDT整体在执行回归/分类/排序任务，弱评估器一定是回归器。GBDT通过sigmoid或softmax函数输出具体的分类结果，但实际弱评估器一定是回归器。

损失函数𝐿(𝑥,𝑦)

在GBDT当中，损失函数范围不再局限于固定或单一的某个损失函数，而从数学原理上推广到了任意可微的函数。因此GBDT算法中可选的损失函数非常多，GBDT实际计算的数学过程也与损失函数的表达式无关。

拟合残差

GBDT依然自适应调整弱评估器的构建，但却不像AdaBoost一样通过调整数据分布来间接影响后续弱评估器。相对的，GBDT通过修改后续弱评估器的拟合目标来直接影响后续弱评估器的结构。

具体地来说，在AdaBoost当中，每次建立弱评估器之前需要修改样本权重，且用于建立弱评估器的是样本𝑋以及对应的𝑦，在GBDT当中，我们不修改样本权重，但每次用于建立弱评估器的是样本𝑋以及当下集成输出𝐻(𝑥𝑖)与真实标签𝑦的差异（𝑦−𝐻(𝑥𝑖))）。这个差异在数学上被称之为残差（Residual），因此GBDT不修改样本权重，而是通过拟合残差来影响后续弱评估器结构。

抽样思想

GBDT加入了随机森林中随机抽样的思想，在每次建树之前，允许对样本和特征进行抽样来增大弱评估器之间的独立性（也因此可以有袋外数据集）。虽然Boosting算法不会大规模地依赖于类似于Bagging的方式来降低方差，但由于Boosting算法的输出结果是弱评估器结果的加权求和，因此Boosting原则上也可以获得由“平均”带来的小方差红利。当弱评估器表现不太稳定时，采用与随机森林相似的方式可以进一步增加Boosting算法的稳定性。

对于AdaBoost或随机森林算法来说，当集成算法执行的是回归任务时，弱评估器也是回归器，当集成算法执行分类任务时，弱评估器也是分类器*。但对于GBDT而言，无论GBDT整体在执行回归/分类/排序任务，弱评估器一定是回归器。GBDT通过sigmoid或softmax函数输出具体的分类结果，但实际弱评估器一定是回归器。

损失函数𝐿(𝑥,𝑦)

在GBDT当中，损失函数范围不再局限于固定或单一的某个损失函数，而从数学原理上推广到了任意可微的函数。因此GBDT算法中可选的损失函数非常多，GBDT实际计算的数学过程也与损失函数的表达式无关。

拟合残差

GBDT依然自适应调整弱评估器的构建，但却不像AdaBoost一样通过调整数据分布来间接影响后续弱评估器。相对的，GBDT通过修改后续弱评估器的拟合目标来直接影响后续弱评估器的结构。

具体地来说，在AdaBoost当中，每次建立弱评估器之前需要修改样本权重，且用于建立弱评估器的是样本𝑋以及对应的𝑦，在GBDT当中，我们不修改样本权重，但每次用于建立弱评估器的是样本𝑋以及当下集成输出𝐻(𝑥𝑖)与真实标签𝑦的差异（𝑦−𝐻(𝑥𝑖))）。这个差异在数学上被称之为残差（Residual），因此GBDT不修改样本权重，而是通过拟合残差来影响后续弱评估器结构。

抽样思想

GBDT加入了随机森林中随机抽样的思想，在每次建树之前，允许对样本和特征进行抽样来增大弱评估器之间的独立性（也因此可以有袋外数据集）。虽然Boosting算法不会大规模地依赖于类似于Bagging的方式来降低方差，但由于Boosting算法的输出结果是弱评估器结果的加权求和，因此Boosting原则上也可以获得由“平均”带来的小方差红利。当弱评估器表现不太稳定时，采用与随机森林相似的方式可以进一步增加Boosting算法的稳定性。