GBDT

leo鱼

于 2016-09-01 15:26:59 发布

阅读量811

点赞数

分类专栏：数据挖掘文章标签： gbdt

数据挖掘专栏收录该内容

18 篇文章 1 订阅

订阅专栏

GBDT资料：

http://suanfazu.com/t/gbdt-die-dai-jue-ce-shu-ru-men-jiao-cheng/135

http://suanfazu.com/t/gbdt-mart-gai-nian-jian-jie/133

GBDT vs xgboost：

作者：wxquare
链接：https://www.zhihu.com/question/41354392/answer/103119723
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

1. xgboost在目标函数中加入了正则化项，当正则化项为0时与传统的GDBT的目标函数相同
2. xgboost在迭代优化的时候使用了目标函数的泰勒展开的二阶近似，paper中说能加快优化的过程！！xgboost可自定义目标函数，但是目标函数必须二阶可导也是因为这个。GDBT中只用了一阶导数。
3. xgboost寻找最佳分割点时，考虑到传统贪心法效率比较低，实现了一种近似贪心法，除此之外还考虑了稀疏数据集、缺失值的处理，这能大大提升算法的效率。paper中提到在一个稀疏数据集中测试，发现速度提升了50倍。
4. xgboost在算法实现时做了很多优化，大大提升了算法的效率，感叹陈天奇大牛深厚计算机基础！

对训练的每个特征排序并且以块的的结构存储在内存中，方便后面迭代重复使用，减少计算量，不仅如此，在不同的特征属性上采用多线程并行方式寻找最佳分割点
上述的优化导致每个样本的梯度信息在内存中不连续，直接累加有可能会导致cache-miss，所以xgboost先将样本的统计信息取到线程的内部buffer，然后再进行小批量的累加
xgboost在实现时考虑了当训练数据很大、内存空间不够时，如何有效的利用磁盘空间？主要是利用了分块、预取、压缩、多线程协作的思想。

5.传统GBDT以CART作为基分类器，xgboost还支持线性分类器

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

leo鱼 CSDN认证博客专家 CSDN认证企业博客

码龄14年

21: 原创

24万+: 周排名

167万+: 总排名

14万+: 访问

: 等级

1490: 积分

42: 粉丝

19: 获赞

7: 评论

90: 收藏

私信

关注

热门文章

分类专栏

最新评论

xgboost on yarn and xgboost4j-spark部署
qq_19312071: nWorkers 不一定要小于 executors的数量，但要小于 executors * cores 的数量
xgboost on yarn and xgboost4j-spark部署
qq_19312071: https://blog.csdn.net/webzjuyujun/article/details/78553518
BP神经网络的网络带宽预测
weixin_44886472: 你好，可以留个联系方式吗？有一些不懂的地方想咨询一下你。
随机森林
leo鱼: 最好将连续特征进行离散化处理，比如分桶
逻辑回归key points
leo鱼: 离散化也可以把数据集合转换为稀疏数据集，适用于逻辑回归以及fm等算法

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。