GBDT算法原理个人总结

最新推荐文章于 2023-04-19 19:48:17 发布

阿尔卑斯糖

最新推荐文章于 2023-04-19 19:48:17 发布

阅读量447

点赞数

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/weixin_42111393/article/details/117995803

版权

机器学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

0.前言

本文仅仅是自己的学习总结，好记性不如烂笔头，相信对你也会有一些启发吧，可能会与其他博客有很多相似的地方，如若侵权，立删。

1.提升树

在讲GBDT之前，首先要讲一下提升树（Boosting Tree），提升树是以分类树或回归树为基本分类器的提升方法，实际采用的是加法模型和前向分布算法。针对分类和回归的不同问题，主要区别在于回归问题使用平方误差损失函数，分类问题使用指数损失函数。对于二分类问题，提升树只需把AdaBoost算法中的基本分类器限制为二类分类树即可，是AdaBoost算法的特殊情况。在这里主要讨论回归问题的提升树。

回归问题的提升树算法流程：

输入：训练数据集 $T=\left \{(x_{1}, y_{1}), (x_{2}, y_{2})...... (x_{n}, y_{n})\right \}$

输出：提升树 $f_{M}(x)$

(1):初始化 $f_{0}(x)=0$

(2): $m=1,2,3,4........,M$

(a): 计算残差：

$r_{mi}=y_{i}-f_{m-1}(x_{i}), i=1,2, 3......N$

(b):拟合残差 $r_{mi}$ 学习一个回归树，得到 $T(x, \o _{m})$ 。

(c):更新

$f_{m}(x)=f_{m-1}+T(x, \o _{m})$

(3): 得到的回归问题提升树：

$f_{M}(x)=f_{0}(x)+\sum_{m=1}^{M}T(x,\o _{m})$

附：以上算法流程来自《李航统计学习方法》

上述伪代码中为啥要计算残差：

对于第m棵树，是在 $f_{m-1}(x)$ 给定的情况下，求解 $T(x, \o _{m})$ ，求解的目标是使损失函数的值最小，从而可得：

$\large \O _{m}=\underset{\O_{m}}{argmin}\sum_{i=1}^{N}L(y_{i}, f_{m-1}(x_{i})+T(x_{i}, \O _{m}))$

当采用平方误差损失函数时，

$L(y, f_{m}(x))=(y-f_{m}(x))^{2}$

由 $f_{m}(x)=f_{m-1}+T(x, \o _{m})$ 可知，上式可变换为：

$L(y, f_{m}(x))=L(y, f_{m-1}(x)+T(x,\o _{m}))=[(y- f_{m-1}(x))-T(x,\o _{m})]^{2}$

这里可以让：

$r=y-f_{m-1}(x)$

则损失函数可变换成：

$[(y- f_{m-1}(x))-T(x,\o _{m})]^{2}=[r-T(x,\o _{m})]^{2}$

为了降低损失值，则第 $m$ 棵树 $T(x,\o _{m})$ 拟合当前的残差 $r$ 就可以了，这个树每个叶子节点输出的值就是落到每个叶子节点的残差值的均值。

以上就是提升树的理论。

2.GBDT算法理论

提升树利用加法模型和前向分布算法实现学习的优化过程，通过前面的提升树可知，提升树通过残差就可以解决回归问题，这不是挺好的吗？为什么又提出GBDT呢，其实准确地说：提升树应该是GBDT在取平方误差损失函数时候的一个特例，GBDT拟合的不再是残差，而是负梯度，当损失函数是平方误差时，负梯度就是残差，但为其他损失函数时，就不能认为是残差了，GBDT思想不再局限于损失函数为何物！下面细说。

GBDT思想：

GBDT第 $\large m$ 棵树需要拟合的负梯度公式如下：

$\large -[\frac{\partial L(y,f(x_{i}))}{\partial f(x_{i})}]_{f(x)=f_{m-1}(x)}$

先不考虑GBDT的算法流程，咱们先想想为啥去拟合负梯度：

无论什么模型，我们最终的目标是使损失函数值不断的降低。了解过梯度下降法的可以想到，损失函数的负梯度就是函数下降最快的方向:

$\large \theta _{_{k}} = \theta _{_{k-1}} -\eta \frac{\partial f(\theta _{_{k-1}})}{\partial \theta _{k-1}}$

上式可以通过泰勒一阶展开式证明负梯度是函数下降最快的方向：

首先数学上的泰勒展开式如下：

$f(x+\Delta x)=f(x)+f^{'}(x)\Delta x+\frac{f^{''}(x)}{2!}\Delta x^{^{2}}+......+\frac{f^{(n)}(x)}{n!}\Delta x^{^{n}}+o(\Delta x)$

对于函数 $f(\theta _{_{k+1}})$ , 通过泰勒一阶展开可得：

$f(\theta _{_{k+1}})\approx f(\theta _{_{k}})+\frac{\partial f(\theta _{k})}{\partial \theta _{k}}(\theta _{_{k+1}}-\theta _{_{k}})$

则优化函数 $f(\theta _{_{k+1}})$ 使其递减，则：

$\large \theta _{_{k+1}} - \theta _{_{k}} =-\eta \frac{\partial f(\theta _{_{k}})}{\partial \theta _{k}}$

通过以上思想，应用到GBDT中：

因为GBDT的目标也是让损失函数值逐步降低，当然可以用损失函数的负梯度了，GBDT是如何推导的呢？

GBDT的损失函数 $\large L(y, f_{_{m-1}}(x)+T(x, \o _{m}))$ ，通过泰勒一阶展开式得到结果如下：

$\large L(y, f_{_{m-1}}(x)+T(x, \o _{m}))\approx L(y, f_{_{m-1}}(x))+\frac{\partial L(y, f_{_{m-1}}(x))}{\partial f_{_{m-1}}(x)}T(x, \o _{m})$

则优化损失函数 $\large L$ 使其递减，可以使：

$\large T(x, \o _{m})=-\eta \frac{\partial L(y, f_{_{m-1}}(x))}{\partial f_{_{m-1}}(x)}$

所以GBDT的第 $\large m$ 棵树通过拟合损失函数的负梯度去降低损失值，好像和GBDT的负梯度差一个 $\large \eta$ 。如果使用的损失函数使平方误差损失函数，那么它的负梯度其实就是残差，所以得到本节开头的结论：提升树是GBDT在损失函数取平方误差时的一个特例。

GBDT的算法流程：

(1)初始化学习器：

$\large f_{0}(x)=\underset{c}{argmin}\sum_{i=1}^{N}L(y_{i}, c)$

(2)对 $\large m=1,2,3,.........M$

(a)对 $\large i=1,2,3,...........N$ ,计算

$\large \gamma _{mi}=-[\frac{\partial L(y,f(x_{i}))}{\partial f(x_{i})}]_{f(x)=f_{m-1}(x)}$

（b）对 $\large \gamma _{mi}$ 拟合一个回归树，得到第 $\large m$ 棵树的叶子节点区域 $\large R_{mj}$ ， $\large j=1,2,3........J$

（c）对 $\large j=1,2,3,........J$ ，每个叶子节点的拟合值为：

$\large c_{mj}=\underset{c}{argmin}\sum_{x_{i}\in R_{mj}}L(y_{i}, f_{m-1}(x_{i})+c)$

（d）更新：

$\large f_{m}(x)=f_{m-1}(x)+\sum_{j=1}^{J}c_{mj}I(x\in R_{mj})$

其中 $\large I(x\in R_{mj})$ 取1或者0

（3）最终的GBDT的模型：

$\large F(x) = f_{M}(x)=\sum_{m=1}^{M}\sum_{j=1}^{J}c_{mj}I(x\in R_{mj})$

额，就写到这里吧，完结撒花。

阿尔卑斯糖

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
GBDT算法原理个人总结

0.前言本文仅仅是自己的学习总结，好记性不如烂笔头，可能会与其他博客有很多相似的地方，如若侵权，立删。1.提升树
复制链接

扫一扫

专栏目录