从决策树到XgBoost（三）梯度提升树GBDT

最新推荐文章于 2024-03-31 08:39:59 发布

guofei_fly

最新推荐文章于 2024-03-31 08:39:59 发布

阅读量319

点赞数 1

分类专栏：机器学习文章标签： GBDT GBDT分类 GBDT回归 CART树

本文链接：https://blog.csdn.net/guofei_fly/article/details/103267377

版权

机器学习专栏收录该内容

39 篇文章 10 订阅

订阅专栏

正如随机森林是决策树模型在bagging框架上的集成，我们同样可以在boosting框架上采用决策树为基学习器，比如基于AdaBoost框架或Gradient Boosting框架。

鉴于AdaBoost算法可视为Gradient Boosting算法的一种特殊情况，所以本文直接介绍更泛化的梯度提升树（Gradient Boosting Decision Tree），并将其具体化到不同的损失函数中。

一、GBDT基本理论

1.1 Gradient Boosting算法回顾

再集成学习（三）Gradient Boosting算法中我们通过分离变量，将每轮的损失函数表示子学习器 $g (x)$ 和权重系数 $\alpha$ 两个变量的优化目标：
$\argmin\limits_{\alpha,g}L(G_{m})=\argmin\limits_{\alpha,g}\frac{1}{N}\sum\limits_{i=1}^NL(\sum_{t=1}^{m-1}\alpha_tg_t(x_i)+\alpha g(x_i),y_i)$ 在函数空间内，对上式进行一阶泰勒展开，可得： $\argmin\limits_{\alpha,g}L(G_{m})=\argmin\limits_{\alpha,g}\frac{1}{N}\sum\limits_{i=1}^N(L(\sum_{t=1}^{m-1}\alpha_tg_t(x_i),y_i)+\frac{\partial L(\sum_{t=1}^{m-1}\alpha_tg_t(x_i),y_i)}{\partial \sum_{t=1}^{m-1}\alpha_tg_t(x_i)}*\alpha g(x_i))$ 对比梯度下降公式，可得当前轮的优化策略：
（1）以 $-\frac{\partial L({G{_{m-1}(x))}}}{\partial G_{m-1(x)}}$ ，即损失函数负梯度方向为目标，优化子学习器 $g (x)$
（2）以样本损失函数为目标，优化权重参数 $\alpha$

1.2 决策树的另一种解读

在从决策树到XgBoost（一）决策树模型中曾经指出，决策树模型可视为一系列If-else"决策路径的组合。因此对于一棵树，其模型的参数包括两部分：树的结构（既决策路径）和叶子节点的结果（即决策结果）。

因为每一个叶子节点对应唯一一条决策路径。令整个决策映射为 $q (x)$ ，对应决策路径 $j$ 的映射为 $q_j(x)=I(x\in j)$ ，对应叶子节点上的结果为 $w_j$ ，叶子节点的总数为 $T$ 。此时，决策树模型可写作： $g(x)=w_{q(x)}=\sum_{j=1}^Tw_jq_j(x)=\sum_{j=1}^Tw_jI(x\in j)$

1.3 将决策树应用到Gradient Boosting框架中的理解

当将决策树应用到Gradient Boosting框架中时，又将如何理解每轮模型更新时的优化目标 $g (x)$ 和 $\alpha$ 呢？

（1）泛化的讲， $g (x)$ 是将损失函数负梯度值作为新的目标函数来训练新一轮的子学习器。那在GBDT中，就是将损失函数负梯度值作为新的目标函数来训练一个新的子树。
（2）泛化的讲， $\alpha$ 是将子学习器的结果进行权重调整。那在GBDT中，就是将子树中叶子节点的结果进行大小的改变

注意到在1.2中，可以将决策树写作每个决策路径和叶子结果的和。对于每一个训练或测试样本，其推断时的决策路径和结果是唯一的。所以 $\begin{aligned} \alpha g(x)&=\alpha \sum_{j=1}^Tw_jI(x\in j)\\&= \sum_{j=1}^T\alpha w_jI(x\in j)\\ &= \sum_{j=1}^T \hat w_j I(x\in j)\end{aligned}$ 这意味着什么？意味着当Gradient Boosting的框架选决策树作为基学习器时，可以将 $g (x)$ 和 $\alpha$ 的优化思路进一步改进为如下两步：
（1）以损失函数负梯度值目标函数，确定新一轮子树 $g (x)$ 的结构（决策路径和样本划分）
（2）以总模型 $G (x)$ 的最小损失函数为目标，确定子树 $g (x)$ 中各叶子节点的结果 $w_j$

无论用决策树来解决分类或回归问题，各叶子节点中的结果值均为一个固定数值（如分类标识、分类概率值或回归平滑值），因此对于上面的第（2）步，每个叶子节点的最终值均为一个固定数值。

1.4 GBDT算法流程

在GBDT的实际使用中，基本都采用基于CART树的实现。通过选择合适的定义连续可导的损失函数，可以解决回归和分类问题。

GBDT算法的基本流程如下：
（1）初始化学习器 $g_0(x)$ ，一般可取 $g_0(x)=\arg\min_{g(w,q)} \sum_{i=1}^NL(g(x_i),y_i)=\arg\min_{g(w,q)} \sum_{i=1}^NL(\sum_{j=1}^J q_j(x_i),y_i)$
(2) 对于迭代轮数 $m = 1, 2, . . ., M$ :
a) 计算各样本的损失负梯度方向： $r_{mi}=-\frac{\partial L(G_{m-1}(x_i),y_i)}{\partial G_{m-1}(x_i)}$ b) 以 $x_i,r_{mi})$ 为样本，确定一颗新的CART树结构 $q_m$ ，
c) 对上述子CART树，计算出每个叶子节点中的最佳结果值： $w_{mj}=\arg\min_w\sum_{i\in I_{mj}}L(G_{m-1}(x_i)+w,y_i)$ 上式中， $I_{mj}=\{i|q(x_i)=j\}$ 表示上述CART树中某个叶子节点 $j$ 上的训练样本集合
d）更新总的模型： $G_m(x)=G_{m-1}(x)+\sum_{j=1}^{J_m} w_{mj}q_m(x)$

（3）最终得到的总模型为： $G_M(x)=g_0(x)+\sum_{m=1}^M\sum_{j=1}^{J_m}w_{mj}q_m(x)$

二、将GBDT用于回归和分类问题

通过将损失函数定义为不同的损失函数（参见机器学习中常见的损失函数），即可将GBDT算法使用到各类实际问题。

2.1 GBDT回归算法

以平方损失函数为例，介绍GBDT在回归问题中使用，此外还可以使用绝对值损失、Huber损失和Quantile损失等。

此时GBDT算法的几个显著特点在于：
（1） $g_{0}$ 可直接取训练样本的均值代替；

（2）损失函数为 $G(x)-y)^2$ ，此时样本 $x_i$ 的负梯度值为 $2 (y - G (x))$ ，即为前序总模型预测结果值与真实值的残差值（忽略倍数，因为可合并到后续节点结果的优化）。因此，每轮子树的优化过程可视为：
a) 基于样本的残差值 $x_i,y_i-G_{m-1}(x_i))$ ，得到子树 $g_m(x)$ 的结构；
b）对于子树中每组样本而言，取其总平方损失最小（包括前序学习器和当前子树）的值为该节点的结果值

2.2 GBDT分类算法

2.2.1 二分类问题

对于二分类问题，当其损失函数取指数损失函数时，可退化为Adaboost算法。另一种被广泛采用的损失函i数为类似于逻辑回归中的对数似然损失函数： $L(g(x),y)=\log(1+\exp^{-yg(x)})$ 对应的负梯度值为： $r_{mi}=\frac{y_i}{1+\exp^{-y_ig_m(x)}}$ 根据该值取确定每轮更新中子树的结构，而该子树各叶子节点的最佳结果值为： $w_{mj}=\arg\min_w\sum_{i\in I_{mj}}\log(1+\exp^{-y_i(G_{m-1}(x_i)+w)})$ 此值难以优化，因此常用下值替代： $w_{mj}=\frac{\sum\limits_{i\in I_{mj}}r_{mi}}{\sum\limits_{i\in I_{mj}}|r_{mi}|(1-|r_{mi}|)}$

2.2.2 多分类问题

对于多分类问题，假设为 $K$ 类，采用交叉熵损失函数： $L(g(x),y)=-\sum_{k=1}^Ky_k\log p_k(x)$ 其中 $y_k$ 仅在当前样本所属分类时为1，其他均为0，预测值属于类 $k$ 的概率为： $p_k(x)=\frac{\exp(g^{(k)}(x))}{\sum\limits_{l=1}^K\exp(g^{(l)}(x))}$ 上式中 $g^{(l)}(x)$ 为映射到类 $l$ 的函数。
其第 $m$ 轮第 $i$ 个样本对应类别 $l$ 函数的负梯度值为： $r_{mil=}=y_{il}-p_{l,m-1}(x_i)$ 即负梯度值为样本 $i$ 对应类别 $l$ 的真实概率与前 $t - 1$ 轮预测概率之差。
根据该值进行每轮子树的决策树。对于该子树每个叶子节点的最佳结果则为：
$w_{mjl}=\arg\min_{w}\sum_{i \in I_{mj}}L((G_{m-1}(x_i)+w),y_i)$
上式难以直接优化，常用下式替代：
$w_{mjl}=\frac{K-1}{K}\frac{\sum\limits_{i\in I_{mjl}}r_{mil}}{\sum\limits_{i\in I_{mjl}}|r_{mil}|(1-|r_{mil}|)}$