GBDT算法梳理

最新推荐文章于 2023-06-24 18:41:36 发布

视界IT

最新推荐文章于 2023-06-24 18:41:36 发布

阅读量567

点赞数

分类专栏：算法梳理 python

算法梳理同时被 2 个专栏收录

14 篇文章 7 订阅

订阅专栏

python

7 篇文章 0 订阅

订阅专栏

LeetCode题目记录

1.前向分步算法

Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT（Gradient Boosting Regression Tree）, MART(Multiple Additive Regression Tree)，其实都是指的同一种算法，本文统一简称GBDT。
在求解加法模型时，公式如下第一个，在给定训练数据及损失函数L(y, f(x))的条件下，学习加法模型f(x)就成为经验风险极小化损失函数极小化问题，公式如下第二个：
在这里插入图片描述
前向分步算法的思想为：学习的是加法模型，那如果能够从前向后，每一步只学习一个基函数及其系数，然后逐步逼近优化目标式（第二式），那么就可以简化优化的复杂度。即每一步优化函数变为：

具体如下：
输入数据：训练数据集T ={(x1,y1), (x2, y2), …, (xN, yN)}；损失函数L(y, f(x))；基函数集{b(x; r)}；
输出：加法模型f(x)

在这里插入图片描述
因此，前向分布算法将同时求解从m=1到M的所有参数βm, rm的优化问题简化为逐次求解各个βm, rm的优化问题。

2.GBDT算法

GBDT也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。回顾下Adaboost，我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。

在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)，让本轮的损失函数L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。

GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。

从上面的例子看这个思想还是蛮简单的，但是有个问题是这个损失的拟合不好度量，损失函数各种各样，怎么找到一种通用的拟合方法呢？

3.GBDT负梯度拟合

在这里插入图片描述

4.GBDT损失函数

在这里插入图片描述

5.GBDT回归算法

在这里插入图片描述

6.GBDT正则化

在这里插入图片描述

７.GBDT优缺点

在这里插入图片描述

８. sklearn 参数

在scikit-learn中，GradientBoostingClassifier为GBDT的分类类，而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同，当然有些参数比如损失函数loss的可选择项并不相同。这些参数中，类似于Adaboost，我们把重要参数分为两类，第一类是Boosting框架的重要参数，第二类是弱学习器即CART回归树的重要参数。

下面我们就从这两个方面来介绍这些参数的使用。
在这里插入图片描述

参考文献：
[1]:https://www.cnblogs.com/pinard/p/6143927.html

视界IT

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
GBDT算法梳理

LeetCode题目记录1.前向分步算法2.GBDT算法3.GBDT负梯度拟合4.GBDT损失函数5.GBDT回归算法6.GBDT正则化７.GBDT优缺点８. sklearn 参数1.前向分步算法Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称，有GBT（Gradient Boos...
复制链接

扫一扫

专栏目录