集成学习之梯度提升树（GBDT）原理详解

最新推荐文章于 2024-07-05 00:02:09 发布

lankuohsing

最新推荐文章于 2024-07-05 00:02:09 发布

阅读量1.1k

点赞数

分类专栏：机器学习理论学习学习笔记文章标签：机器学习集成学习 GBDT

本文链接：https://blog.csdn.net/THUChina/article/details/121390922

版权

学习笔记同时被 3 个专栏收录

53 篇文章 0 订阅

订阅专栏

理论学习

46 篇文章 1 订阅

订阅专栏

机器学习

11 篇文章 0 订阅

订阅专栏

文章目录

1. 梯度提升（Gradient Boosting）的思想
2. gradient boosting的通用算法流程
3. 将回归树作为基学习器，得到GBDT算法

参考
https://www.cnblogs.com/massquantity/p/9174746.html

1. 梯度提升（Gradient Boosting）的思想

Gradient Boosting和Adaptive Boosting都属于boosting类集成学习算法，也即通过多轮迭代得到多个基学习器，然后将多个基学习器加权求和。
$f_m(x)=f_{m-1}(x)+\rho_mh_m(x)\tag{1-1}$
不同之处在于，Adaptive Boosting在某次迭代过程中训练该轮基学习器时，会增大上一轮犯错样本的权重；而Gradient Boosting在某次迭代时，会拟合上一轮基学习器的负梯度。
为什么拟合上一轮的负梯度能work？我们知道机器学习中最小化损失函数 $L(\theta)$ 时，往往会利用梯度下降法来更新 $\theta$ ：
$\theta=\theta-\alpha\cdot \frac{\partial L(\theta)}{\partial \theta}\tag{1-2}$
如果把 $\theta$ 换成基学习器 $f_m(x)$ ，上述表达式也是可以用来更新基学习器的（具体的严格证明需要用到泛函分析的理论）:
$f_m(x)=f_{m-1}(x)-\rho_m\cdot \frac{\partial L(y,f_{m-1}(x))}{\partial f_{m-1}(x)}\tag{1-3}$
其中 $L(y,f_{m-1}(x))=\sum_{i=1}^NL(y_i,f_{m-1}(x_i))$
${1-3\}$ 意味着，我们是用第m轮的基学习器 $h_m(x)$ 去拟合上一轮损失函数关于 $f_{m-1}(x)$ 的负梯度，从而达到通过梯度下降法最小化 $L (f)$ .该方法也叫函数空间的梯度下降法。

2. gradient boosting的通用算法流程

这里我们暂时不关心基学习器的具体表达式，把GBDT的通用算法流程列下来：

初始化: $f_0(x)=\arg \min\limits_{\gamma}\sum_{i=1}^NL(y_i,\gamma)$
for m=1 to M:
(a)计算函数空间负梯度： $\tilde{y_i}=\frac{\partial L(y_i,f_{m-1}(x_i))}{\partial f_{m-1}(x_i)}, i=1,\cdots,N$
(b)通过最小化平方误差，来得到 $h_m(x)$ ： $w_m=\arg\min\limits_{w}\sum_{i=1}{N}(\tilde{y_i}-h_m(x_i;w))^2$
©使用line search确定系数 $\rho_m$ : $\rho_m=\arg\min\limits{\rho}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+\rho h_m(x_i;w_m))$
(d)更新基学习器： $f_m(x)=f_{m-1}+\rho_m h_m(x;w_m)$
输出最终的 $f_M(x)$

3. 将回归树作为基学习器，得到GBDT算法

3.1. 回归树介绍

在GBDT中，基学习器是决策树。因为基学习器要拟合的是负梯度，可以认为是个回归问题，因此我们来介绍一些回归树的基本概念。
决策树本质上可以看做一个分段函数，把特征空间分为多个互相独立的子区域：
在这里插入图片描述
图片来源https://www.cnblogs.com/massquantity/p/9174746.html
因此单棵决策树在数学上可以表示为
$h(x;\{R_j,b_j\}_1^J=\sum_{j=1}^Jb_jI(x\in R_j)\tag{3-1}$
其中 ${R_j\}_1^J$ 代表决策树划分出的 $J$ 个子空间（每个子空间对应一个叶结点）， ${b_j\}_1^J$ 代表各个子空间输出的值。

3.2. 将回归树应用到gradient boosting中

因此第2章里面的2.(b)可以写成：
$\{R_{jm}\}_1^J=\arg\min\limits_{\{R_{jm}\}_1^J}\sum_{i=1}{N}(\tilde{y_i}-h_m(x_i;\{R_{jm},b_{jm}\}_1^J))^2\tag{3-2}$
对应的 $b_{jm}=\mathop{mean}\limits_{x\in R_{jm}}\ \tilde{y_i}$ 是该区域的平均值。（之所以可以先划分区域再求b，是因为不论怎么划分区域，b取该区域内所有值的平均值，总能最小化均方误差，因此可以先后求）
注意到2.©中求出的 $\rho_m$ 对于所有子区域是一样的，这样不一定是最优的，因此可以采用如下方式优化求取最优的 $\gamma_{jm}=\rho_{jm}b_{jm}$ ：
$\gamma_{jm}=\arg\min\limits_{\gamma}\sum_{x_i\in R_{jm}}L(y_i,f_{m-1}(x_i)+\gamma) \tag{3-3}$

3.3. GBDT算法流程

最终得到GBDT的算法流程：

初始化: $f_0(x)=\arg \min\limits_{\gamma}\sum_{i=1}^NL(y_i,\gamma)$
for m=1 to M:
(a)计算函数空间负梯度： $\tilde{y_i}=\frac{\partial L(y_i,f_{m-1}(x_i))}{\partial f_{m-1}(x_i)}, i=1,\cdots,N$
(b)通过最小化平方误差，来得到子区域划分方式（也即得到最终的决策树）： $\{R_{jm}\}_1^J=\arg\min\limits_{\{R_{jm}\}_1^J}\sum_{i=1}{N}(\tilde{y_i}-h_m(x_i;\{R_{jm},b_{jm}\}_1^J))^2$
©使用line search确定子区域最终输出： $\gamma_{jm}=\arg\min\limits_{\gamma}\sum_{x_i\in R_{jm}}L(y_i,f_{m-1}(x_i)+\gamma)$
(d)更新基学习器： $f_m(x)=f_{m-1}+\sum_{j=1}^J\gamma_{jm}I(x\in R_{jm})$
输出最终的 $f_M(x)$