梯度提升树(GBDT)原理小结

最新推荐文章于 2024-04-10 11:04:31 发布

树莓雪糕

最新推荐文章于 2024-04-10 11:04:31 发布

阅读量565

点赞数 1

分类专栏：机器学习文章标签： GBDT boosting CART xgbt adaboost

本文链接：https://blog.csdn.net/sumaliqinghua/article/details/86695905

版权

机器学习专栏收录该内容

11 篇文章 1 订阅

订阅专栏

GBDT属于boosting算法，也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。

　　GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。

CART树

在上面简单介绍了Gradient Boost框架，梯度提升决策树Gradient Boosting Decision Tree是Gradient Boost框架下使用较多的一种模型，在梯度提升决策树中，其基学习器是分类回归树CART，使用的是CART树中的回归树。

分类与回归树，是二叉树，可以用于分类，也可以用于回归问题，最先由 Breiman 等提出。

分类树的输出是样本的类别，回归树的输出是一个实数。

CART算法有两步：决策树生成和剪枝。

决策树生成：递归地构建二叉决策树的过程，基于训练数据集生成决策树，生成的决策树要尽量大；

自上而下从根开始建立节点，在每个节点处要选择一个最好的属性来分裂，使得子节点中的训练集尽量的纯。

不同的算法使用不同的指标来定义"最好"：

分类问题，可以选择GINI，双化或有序双化；
回归问题，可以使用最小二乘偏差（LSD）或最小绝对偏差（LAD）。

决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时损失函数最小作为剪枝的标准。

这里用代价复杂度剪枝 Cost-Complexity Pruning(CCP)

回归树的生成

回归树模型表示为：

其中，数据空间被划分成了 R1～Rm 单元，每个单元上有一个固定的输出值 cm。
这样就可以计算模型输出值与实际值的误差：

我们希望每个单元上的 cm，可以使得这个平方误差最小化，易知当 cm 为相应单元上的所有实际值的均值时，可以达到最优：

假设，我们选择变量 xj 为切分变量，它的取值 s 为切分点，那么就会得到两个区域：

当 j 和 s 固定时，我们要找到两个区域的代表值 c1，c2 使各自区间上的平方差最小，

前面已经知道 c1，c2 为区间上的平均，

那么对固定的 j 只需要找到最优的 s，然后通过遍历所有的变量，我们可以找到最优的 j，这样我们就可以得到最优对（j，s），并得到两个区间。

即：
(1)考虑数据集 D 上的所有特征 j，遍历每一个特征下所有可能的取值或者切分点 s，将数据集 D 划分成两部分 D1 和 D2
(2)分别计算上述两个子集的平方误差和，选择最小的平方误差对应的特征与分割点，生成两个子节点。
(3)对上述两个子节点递归调用步骤(1)(2),直到满足停止条件。

GBDT 算法

给定一个问题，我们如何构造这些弱分类器呢?Gradient Boosting Modeling (GBM) 就是构造这些弱分类的一种方法。同样，它指的不是某个具体的算法，仍然只是一个理念。在理解 Gradient BoostingModeling 之前，我们先看看一个典型的优化问题:

针对这种优化问题，有一个经典的算法叫 Steepest Gradient Descent，也就是最深梯度下降法。这个算法的过程大致如下:

以上迭代过程可以这么理解:整个寻优的过程就是个小步快跑的过程，每跑一小步，都往函数当前下降最快的那个方向走一点。

这样寻优得到的结果可以表示成加和形式，即:

这个形式和以上Fm(x)是不是非常相似? Gradient Boosting 正是由此启发而来。构造Fm(x)本身也是一个寻优的过程，只不过我们寻找的不是一个最优点，而是一个最优的函数。优化的目标通常都是通过一个损失函数来定义，即:

其中Loss(F(xi), yi)表示损失函数Loss在第i个样本上的损失值，xi和yi分别表示第 i 个样本的特征和目标值。常见的损失函数如平方差函数:

类似最深梯度下降法，我们可以通过梯度下降法来构造弱分类器f1, f2, ... , fm，只不过每次迭代时，令

即对损失函数L，以 F 为参考求取梯度。

这里有个小问题，一个函数对函数的求导不好理解，而且通常都无法通过上述公式直接求解到梯度函数gi。为此，采取一个近似的方法，把函数Fi−1理解成在所有样本上的离散的函数值，即:

不难理解，这是一个 N 维向量，然后计算

这是一个函数对向量的求导，得到的也是一个梯度向量。注意，这里求导时的变量还是函数F，不是样本xk。

严格来说 ĝi(xk) for k = 1,2, ... , N 只是描述了gi在某些个别点上的值，并不足以表达gi，但我们可以通过函数拟合的方法从ĝi(xk) for k = 1,2, ... , N 构造gi，这样我们就通过近似的方法得到了函数对函数的梯度求导。

因此 GBM 的过程可以总结为如下:

常量函数f0通常取样本目标值的均值，即

损失函数

谈到 GBDT，常听到一种简单的描述方式:“先构造一个(决策)树，然后不断在已有模型和实际样本输出的残差上再构造一颗树，依次迭代”。其实这个说法不全面，它只是 GBDT 的一种特殊情况，为了看清这个问题，需要对损失函数的选择做一些解释。

从对GBM的描述里可以看到Gradient Boosting过程和具体用什么样的弱分类器是完全独立的，可以任意组合，因此这里不再刻意强调用决策树来构造弱分类器，转而我们来仔细看看弱分类器拟合的目标值，即梯度ĝi−1(xj )，之前我们已经提到过

GBDT特点：

GBDT 它的非线性变换比较多，表达能力强，而且不需要做复杂的特征工程和特征变换。
GBDT 的缺点也很明显，Boost 是一个串行过程，不好并行化，而且计算复杂度高，同时不太适合高维稀疏特征；
传统 GBDT 在优化时只用到一阶导数信息。

参考：

http://www.cnblogs.com/bentuwuying/p/6667267.html

https://blog.csdn.net/google19890102/article/details/51746402/

https://www.cnblogs.com/ModifyRong/p/7744987.html

树莓雪糕

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
梯度提升树(GBDT)原理小结

GBDT属于boosting算法，也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。　　GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第...
复制链接

扫一扫