spark.mllib源码阅读-分类算法5-GradientBoostedTrees

本文详细解析了Spark中的Gradient Boosted Trees (GBT) 实现,探讨了GBT与Random Forests的区别,重点介绍了Spark GBT的训练过程,包括GradientBoostedTrees类、GradientBoostedTreesModel以及BoostingStrategy。文章指出,尽管GBT在训练成本和过拟合控制方面不同于Random Forests,但在Spark中,由于串行训练的特性,可能导致训练时间和调参成本较高,建议对精度要求高的任务考虑使用更优化的库如XGBOOST。
摘要由CSDN通过智能技术生成

Gradient-Boosted Trees(GBT或者GBDT) 和 RandomForests 都属于集成学习的范畴,相比于单个模型有限的表达能力,组合多个base model后表达能力更加丰富。

关于集成学习的理论知识,包括GBT和Random Forests的一些比较好的参考资料:

周志华教授的"Ensemble Methods: Foundations and Algorithms",系统的介绍了集成学习的理论及方法

Random Forests

Greedy Function Approximation: A GradientBoosting Machine

Stochastic GradientBoosting,Spark GBT实现所参考的算法

 

GBT和Random Forests二者的区别:

二者的理论思想在spark.mllib源码阅读-bagging方法中从模型的方差和偏差的角度做了一些简要的介绍,在Spark官方文档上也有一段关于二者优劣的描述:

1、GBT比RandomForests的训练成本更高,原因在于GBT中各个模型以序列串行的方式进行训练,通常我们说的并行GBT是指base model的并行训练,各个base model之间是无法做到并行的。而Random Forests

中各个子模型之间可以做到并行化。

2、Random Forests的base model越多越有助于降低过拟合,而GBT中base model越多会提高过拟合的程度。

3、二者训练的时间成本不同,因此调参的成本不同。有限的时间内Random Forests可以实验更多的参数组合。

4、通常来看,Random Forests的base model会得到一棵规模适中的树,而GBT为了降低在basemodel数量多时引发的过拟合,会限制其base model的规模。

 

下面来看看Spark中GBT的实现过程,主要包括3部分:GBT模型、GBT参数配置、GBT训练算法:


GradientBoostedTrees:

GBT的实现过程由GradientBoostedTrees类驱动并向用户暴露模型的训练方法。GradientBoostedTrees的2个关键方法是train和run,在run中,根据用户定义的模型配置

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值