Spark GBDT vs Random Forests vs xgboost

最新推荐文章于 2019-09-03 15:19:42 发布

CAM-TAY

最新推荐文章于 2019-09-03 15:19:42 发布

阅读量733

点赞数 1

分类专栏：算法文章标签： spark GBDT 随机森林 xgboost

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010358304/article/details/81155869

版权

参考spark API文档

算法层面比较： GBDT vs Random Forests （RF）

1) GBDT一次只训练一棵树，而RF一次可以并行地训练多棵树，所以GBDT的训练时间更长。所以，GBDT通常会使用更小的树，同时也减少训练一棵树的时间。

2）RF更不容易过拟合，训练更多的树能够降低RF过拟合的可能性，却增加GBDT过拟合的可能性。（因为在统计学角度，RF通过训练更多的树降低方差，而GBDT通过训练更多的树来降低偏差.）

3) RF更易于调整，因为其性能随树的个数单调递增。而对于GBDT来说，当树的个数太大时，其性能可能会随着树的个数增加而降低。

随机森林

支持二分类，多分类，回归。训练的每棵树的分类结果都会有所不同，将所有树结合在一起可以降低方差，从而提高性能。

1.训练

每一次迭代中从原始数据集采样得到子数据集，在子数据集上应用决策树模型。对于不同的子数据集，使用不同的特征子集作为决策树上的分类节点。

2.预测

1）分类模型：多数投票制。每一棵树的预测结果代表对对应类的一个选票，最终将选票最多的类作为最终预测结果。

2）回归模型：平均。将每棵树的结果做平均得到最终预测结果。

3.提升模型性能常考虑的参数

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark GBDT vs Random Forests vs xgboost

参考spark API文档算法层面比较： GBDT vs Random Forests （RF）1) GBDT一次只训练一棵树，而RF一次可以并行地训练多棵树，所以GBDT的训练时间更长。所以，GBDT通常会使用更小的树，同时也减少训练一棵树的时间。2）RF更不容易过拟合，训练更多的树能够降低RF过拟合的可能性，却增加GBDT过拟合的可能性。（因为在统计学角度，RF通过训练更多的树降...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。