GBDT算法梳理

最新推荐文章于 2022-09-30 11:40:56 发布

路啦路

最新推荐文章于 2022-09-30 11:40:56 发布

阅读量242

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_42517469/article/details/99173274

版权

GBDT（Gradient Boosting Decision Tree）是一种迭代的决策树算法，主要用于回归和分类问题。它通过逐步添加弱学习器来优化损失函数，每次迭代的目标是拟合前一轮的残差。本文介绍了GBDT的基本概念，如回归树、提升树算法、前向分布算法、负梯度拟合以及损失函数。还探讨了GBDT的优缺点，如预测精度高、对异常值的鲁棒性，但也指出其并行训练的困难和高维度数据的挑战。此外，文章详细讲解了GBDT在sklearn中的参数设置，如`n_estimators`、`learning_rate`和`loss`等。最后，GBDT广泛应用于各种回归和分类任务。

摘要由CSDN通过智能技术生成

0、预备知识

0.1回归树

首先，GBDT使用的决策树是CART回归树，无论是处理回归问题还是二分类以及多分类，GBDT使用的决策树通通都是都是CART回归树。为什么不用CART分类树呢？因为GBDT每次迭代要拟合的是梯度值，是连续值所以要用回归树。

对于回归树算法来说最重要的是寻找最佳的划分点，那么回归树中的可划分点包含了所有特征的所有可取的值。在分类树中最佳划分点的判别标准是熵或者基尼系数，都是用纯度来衡量的，但是在回归树中的样本标签是连续数值，所以再使用熵之类的指标不再合适，取而代之的是平方误差，它能很好的评判拟合程度。回归树是如何工作的呢？

下面以对人的性别判别/年龄预测为例来说明，每个instance都是一个我们已知性别、年龄的人，而feature则包括这个人上网的时长、上网的时段、网购所花金额等。

作为对比，先说分类树。我们知道C4.5分类树在每次分枝时是穷举每一个feature的每一个阈值，找到使得按照feature<=阈值和feature>阈值分成的两个分支的熵最大的feature和阈值，按照该标准分支得到两个新节点，同样方法继续分支直到所有人都被分入性别唯一的叶节点，或达到预设的终止条件。若最终叶子节点中的性别不唯一，则以多数人的性别作为该叶子节点的性别。

回归树流程类似，不过在每个节点（不一定是叶子节点）都会得一个预测值，以年龄为例，该预测值等于属于这个节点的所有人年龄的平均值。分支时穷举每一个feature的每个阈值寻找最好的分割点，但衡量最好的标准不再是最大熵二十最小化均方差，这很好理解，被预测出错的人数越多，错的越离谱，均方差就越大。通过最小化均方差能够找到最靠谱的分支依据，若最终叶子节点上人的年龄不唯一，则以该节点上所有人的平均年龄作为该叶子节点的预测年龄。

0.2.提升树算法

基于梯度提升算法的学习器叫做GBM(Gradient Boosting Machine)。梯度提升树（Grandient Boosting）是提升树（Boosting Tree）的一种改进算法，所以在讲梯度提升树之前先来说一下提升树。

先来个通俗理解：假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。最后将每次拟合的岁数加起来便是模型输出的结果。

在这里插入图片描述

1、前向分布算法

在AdaBoost算法中，我们的最终目的是通过构建弱分类器的线性组合：
$f(x)=\sum_{m=1}^{M} \alpha_{m} G_{m}(x)$
来得到最终分类器。
考虑加法模型：
$f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$

显然，AdaBoost算法是基于加法模型。在给定训练数据及损失函数L(y,f(x))的条件下，学习加法模型f(x)成为经验风险极小化及损失函数极小化问题：

$\min _{\beta_{m}, \gamma_{m}} \sum_{i=1}^{N} L\left(y_{i}, \sum_{m=1}^{M} \beta_{m} b\left(x_{i} ; \gamma_{m}\right)\right)$

通常这是一个复杂的优化问题，前向分步算法（forward stagewise algorithm）求解这一优化问题的想法是：因为学习的是加法模型。如果能够从前向后，每一步只学习一个基函数及其系数，逐步逼近优化目标函数式，那么就可以简化优化的复杂度。具体地，每步只需优化如下损失函数：
$\min _{\beta, \gamma} \sum_{i=1}^{N} L\left(y_{i}, \beta b\left(x_{i} ; \gamma\right)\right)$

给定训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}, x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}, y_{i} \in \mathcal{Y}=\{-1,+1\}$

最低0.47元/天解锁文章

路啦路

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GBDT算法梳理

0、预备知识0.1回归树首先，GBDT使用的决策树是CART回归树，无论是处理回归问题还是二分类以及多分类，GBDT使用的决策树通通都是都是CART回归树。为什么不用CART分类树呢？因为GBDT每次迭代要拟合的是梯度值，是连续值所以要用回归树。对于回归树算法来说最重要的是寻找最佳的划分点，那么回归树中的可划分点包含了所有特征的所有可取的值。在分类树中最佳划分点的判别标准是熵或者基尼系数，都...
复制链接

扫一扫

专栏目录