Sklearn-GBDT(GradientBoostingDecisonTree)梯度提升树

  1. GBDT类库概述

GBDT有很多简称,有GBTGradient Boosting Tree, GTBGradient Tree Boosting), GBRTGradient Boosting Regression Tree,MART(Multiple Additive Regression Tree),其实都是指的同一种算法sklearn中称为GradientTree Boosting,分类为GradientBoostingClassifier,回归为GradientBoostingRegressor

GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同。回顾下Adaboost是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同时迭代思路和Adaboost也有所不同。

GBDT的迭代中,假设我们前一轮迭代得到的强学习器是ft1(x), 损失函数是L(y,ft1(x),我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x),让本轮的损失L(y,ft(x)=L(y,ft1(x)+ht(x))最小。也就是说,本轮迭代找到决策树,要让样本的损失尽量变得更小。

GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了(残差作为下一轮拟合的数据的理解)。如果我们的迭代轮数还没有完,可以继续迭代下面,每一轮迭代,拟合的岁数误差都会减小。


2. GBDT类库boosting框架参数

首先,看boosting框架相关的重要参数。由于GradientBoostingClassifier和GradientBoostingRegressor的参数绝大部分相同,我们下面会一起来讲,不同点会单独指出。

1)n_estimators: 默认是100最大的弱学习器的个数,或者弱学习器的最大迭代次数。一般来说n_estimators太小,容易欠拟合,n_estimators太大,又容易过拟合,一般选择一个适中的数值。在实际调参的过程中,常常将n_estimators和下面介绍的参数learning_rate一起考虑。

2)learning_rate:默认为0.1 即每个弱学习器的权重缩减系数ν,也称作步长。是为了过拟合,加上正则化项系数,我们的强学习器的迭代公式为fk(x)=fk1(x)+νhk(x)。ν的取值范围为0<ν1。对于同样的训练集拟合效果,较小的ν意味着我们需要更多的弱学习器的迭代次数(需要更多的弱学习器)通常我们用步长和迭代最大次数一起来决定算法的拟合效果。所以这两个参数n_estimators和learning_rate要一起调参。一般来说,可以从一个小一点的ν开始调参

3)subsample:默认为1正则化的子采样,防止过拟合,取值为(0,1]。注意这里的子采样和随机森林不一样,随机森林使用的是放回抽样,而这里是不放回抽样。如果取值为1则全部样本都使用,等于没有使用子采样。如果取值小于1,则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差,即防止过拟合,但是会增加样本拟合的偏差,因此取值不能太低。推荐在[0.5,0.8]之间,默认是1.0,即不使用子采样。

4) init: 即我们的初始化的时候的弱学习器,拟合对应原理篇里面的f0(x),如果不输入,则用训练集样本来做样本集的初始化分类回归预测。否则用init参数提供的学习器做初始化分类回归预测。一般用在我们对数据有先验知识,或者之前做过一些拟合的时候,如果没有的话就不用管这个参数了

5) loss: 即我们GBDT算法中的损失函数。分类模型和回归模型的损失函数是不一样的。

    • 11
      点赞
    • 30
      收藏
      觉得还不错? 一键收藏
    • 3
      评论

    “相关推荐”对你有帮助么?

    • 非常没帮助
    • 没帮助
    • 一般
    • 有帮助
    • 非常有帮助
    提交
    评论 3
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值