Sklearn-GBDT(GradientBoostingDecisonTree)梯度提升树

最新推荐文章于 2024-04-08 22:16:18 发布

Chercheer

最新推荐文章于 2024-04-08 22:16:18 发布

阅读量1.6w

点赞数 11

分类专栏： sklearn 机器学习文章标签： sklearn 机器学习数据分析 python boosting

本文链接：https://blog.csdn.net/cherdw/article/details/54982805

版权

GBDT类库概述

GBDT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting）， GBRT（Gradient Boosting Regression Tree）,MART(Multiple Additive Regression Tree)，其实都是指的同一种算法。sklearn中称为GradientTree Boosting，分类为GradientBoostingClassifier，回归为GradientBoostingRegressor。

GBDT也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。回顾下Adaboost，是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。

在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x),我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)，让本轮的损失L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。

GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了（残差作为下一轮拟合的数据的理解）。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。

2. GBDT类库boosting框架参数

首先，看boosting框架相关的重要参数。由于GradientBoostingClassifier和GradientBoostingRegressor的参数绝大部分相同，我们下面会一起来讲，不同点会单独指出。

1)n_estimators: 默认是100，最大的弱学习器的个数，或者弱学习器的最大迭代次数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，又容易过拟合，一般选择一个适中的数值。在实际调参的过程中，常常将n_estimators和下面介绍的参数learning_rate一起考虑。

2)learning_rate:默认为0.1，即每个弱学习器的权重缩减系数ν，也称作步长。是为了过拟合，加上的正则化项系数，我们的强学习器的迭代公式为fk(x)=fk−1(x)+νhk(x)。ν的取值范围为0<ν≤1。对于同样的训练集拟合效果，较小的ν意味着我们需要更多的弱学习器的迭代次数（需要更多的弱学习器）。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。所以这两个参数n_estimators和learning_rate要一起调参。一般来说，可以从一个小一点的ν开始调参。

3)subsample:默认为1，正则化中的子采样，防止过拟合，取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5,0.8]之间，默认是1.0，即不使用子采样。

4) init: 即我们的初始化的时候的弱学习器，拟合对应原理篇里面的f0(x)，如果不输入，则用训练集样本来做样本集的初始化分类回归预测。否则用init参数提供的学习器做初始化分类回归预测。一般用在我们对数据有先验知识，或者之前做过一些拟合的时候，如果没有的话就不用管这个参数了。

5) loss: 即我们GBDT算法中的损失函数。分类模型和回归模型的损失函数是不一样的。

最低0.47元/天解锁文章

Chercheer

关注

11
点赞
踩
30

收藏

觉得还不错? 一键收藏
3
评论
Sklearn-GBDT(GradientBoostingDecisonTree)梯度提升树

GBDT类库概述GBDT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting）， GBRT（Gradient Boosting Regression Tree）,MART(Multiple Additive Regression Tree)，其实都是指的同一种算法。sklearn中称为GradientTree
复制链接

扫一扫