GBDT

spark GBDT

https://blog.csdn.net/qq_34531825/article/details/52366265

Spark中组件Mllib的学习39之梯度提升树(GBT)用于分类*

http://www.voidcn.com/article/p-dygpjmko-qh.html  (测试代码)

随机森林(调参更容易,不需要剪枝,树自然增长即可,而GBDT树太深容易过拟合)树越多越好,GDBT树达到一定程度,反而变差。随机森林减少方差,GBDT减少偏差。

GDBT中的决策树要设置浅一些 
训练时间随maxDepth增加而增加,但不是线性增加

学习率(步长):学习率也会影响预测准确率,设置太大精度会降低。 

Spark中的GBDT目前还不能处理多分类问题,仅可以用于二分类和回归问题。(Spark随机森林可以处理多分类问题) 

梯度提升树(GBDT)原理小结

https://www.cnblogs.com/pinard/p/6140514.html

scikit-learn 梯度提升树(GBDT)调参小结

https://www.cnblogs.com/pinard/p/6143927.html

机器学习-一文理解GBDT的原理

https://www.zybuluo.com/yxd/note/611571

https://zhuanlan.zhihu.com/p/29765582

  • Bagging是一个简单的ensemble的技术,我们构建许多独立的预测器/模型/学习器,通过模型平均的方式来组合使用。(如权值的平均,投票或者归一化平均)。我们为每个模型使用随机抽样,所以每个模型都不太一样。每个模型的输入使用有放回的抽样,所以模型的训练样本各不相同。因为这个技术使用了许多个不相关的学习器来进行最终的预测,它通过减少方差来减小误差。bagging的一个例子是随机森林模型

  • Boosting 在对模型进行ensemble的时候,不是独立的,而是串行的。这个技术使用了这样的逻辑,后面的预测器学习的是前面的预测器的误差。因此,观测数据出现在后面模型中的概率是不一样的,误差越大,出现的概率越高。(所以观测数据不是基于随机又放回抽样bootstrap的方式,而是基于误差)。预测器可以从决策树,回归器,分类器中选取。因为新的预测器是从前面的预测器的误差中学习的,接近实际的预测只需要更少的时间和迭代次数。但是我们不得不选择严格的停止策略,否则可能会出现过拟合。梯度提升算法就是提升算法的一个例子。

  • 梯度提升背后的直觉就是重复的利用残差中的模式利用弱预测器来加强模型,让模型变得更好。一旦我们到了一个阶段,残差不具有任何的模式,无法进行建模,我们就可以停止了(否则会导致过拟合)。从算法的角度讲,我们在最小化损失函数,直到测试损失达到最小。

  • 残差迭代图见 https://mp.weixin.qq.com/s/EtFrVCplpmvF2yaDWMA0CQ

Boosting这其实思想相当的简单,大概是,对一份数据,建立M个模型(比如分类),一般这种模型比较简单,称为弱分类器(weak learner)每次分类都将上一次分错的数据权重提高一点再进行分类,这样最终得到的分类器在测试数据与训练数据上都可以得到比较好的成绩。

    上图(图片来自prml p660)就是一个Boosting的过程,绿色的线表示目前取得的模型(模型是由前m次得到的模型合并得到的),虚线表示当前这次模型。每次分类的时候,会更关注分错的数据,上图中,红色和蓝色的点就是数据,点越大表示权重越高,看看右下角的图片,当m=150的时候,获取的模型已经几乎能够将红色和蓝色的点区分开了。

  训练集中一共有n个点,我们可以为里面的每一个点赋上一个权重Wi(0 <= i < n),表示这个点的重要程度,通过依次训练模型的过程,我们对点的权重进行修正,如果分类正确了,权重降低,如果分类错了,则权重提高,初始的时候,权重都是一样的。上图中绿色的线就是表示依次训练模型,可以想象得到,程序越往后执行,训练出的模型就越会在意那些容易分错(权重高)的点。当全部的程序执行完后,会得到M个模型,分别对应上图的y1(x)…yM(x),通过加权的方式组合成一个最终的模型YM(x)。

Gradient Boosting方法:

    其实Boosting更像是一种思想,Gradient Boosting是一种Boosting的方法,它主要的思想是,每一次建立模型是在之前建立模型损失函数的梯度下降方向。这句话有一点拗口,损失函数(loss function)描述的是模型的不靠谱程度,损失函数越大,则说明模型越容易出错(其实这里有一个方差、偏差均衡的问题,但是这里就假设损失函数越大,模型越容易出错)。如果我们的模型能够让损失函数持续的下降,则说明我们的模型在不停的改进,而最好的方式就是让损失函数在其梯度(Gradient)的方向上下降

首先,GBDT使用的决策树是CART回归树,无论是处理回归问题还是二分类以及多分类,GBDT使用的决策树通通都是CART回归树。为什么不用CART分类树呢?因为GBDT每次迭代要拟合的是梯度值,是连续值所以要用回归树

残差就是负梯度


对于回归树算法来说最重要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。在分类树中最佳划分点的判别标准是熵或者基尼系数,都是用纯度来衡量的,但是在回归树中的样本标签是连续数值,所以再使用熵之类的指标不再合适,取而代之的是平方误差,它能很好的评判拟合程度。

GBDT算法原理以及实例理解(写的不错,流程是回归)

介绍完回归任务下的GBDT后,这篇文章将介绍在分类任务下的GBDT,大家将可以看到,对于回归和分类,其实GBDT过程简直就是一模一样的。如果说最大的不同的话,那就是在于由于loss function不同而引起的初始化不同、叶子节点取值不同.分裂准则是一样的,都可以用MSE作为准则计算最佳分割点

https://blog.csdn.net/zpalyq110/article/details/79527653(回归问题,平方损失)

https://blog.csdn.net/qq_22238533/article/details/79192579(分类问题,交叉熵)

https://blog.csdn.net/qq_22238533/article/details/79185969

è¿éåå¾çæè¿°

梯度提升树初始化F_{0}(x)根据损失函数的不同,初始化也不同

叶子节点的取值和所选择的loss function有关。对于不同的Loss function,叶子节点的值也不一样。

这些叶子节点的取值推导过程在论文中其实也只是几笔带过,有兴趣的可以深入研究为何。

è¿éåå¾çæè¿°

相比于回归任务,分类任务需把要最后累加的结果Fm(x)转成概率。(其实Fm(x)可以理解成一个得分)。具体来说: 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值