mllib之随机森林与梯度提升树

最新推荐文章于 2024-08-23 11:17:30 发布

52Pig

最新推荐文章于 2024-08-23 11:17:30 发布

阅读量2.3k

点赞数 1

分类专栏： spark相关 machine learning 文章标签：机器学习 spark 数据挖掘 scala 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013361361/article/details/45032627

版权

本文介绍了随机森林和梯度提升树（GBTs）这两种集成学习算法，讨论了它们在训练顺序上的差异，以及在MLlib中的实现和优化技术。随机森林通过并行训练多棵决策树降低过拟合风险，而GBTs逐步修正误差，提高模型表达力。实验结果显示，随机森林训练时间较短，不易过拟合，而GBTs在过多迭代后可能过拟合，但单次迭代效果显著。

摘要由CSDN通过智能技术生成

随机森林和GBTs都是集成学习算法，它们通过集成多棵决策树来实现强分类器。

集成学习方法就是基于其他的机器学习算法，并把它们有效的组合起来的一种机器学习算法。组合产生的算法相比其中任何一种算法模型更强大、准确。

随机森林和梯度提升树(GBTs)。两者之间主要差别在于每棵树训练的顺序。

随机森林通过对数据随机采样来单独训练每一棵树。这种随机性也使得模型相对于单决策树更健壮，且不易在训练集上产生过拟合。

GBTs则一次只训练一棵树，后面每一棵新的决策树逐步矫正前面决策树产生的误差。随着树的添加，模型的表达力也愈强。

最后，两种方法都生成了一个决策树的权重集合。该集成模型通过组合每棵独立树的结果来进行预测。下图显示一个由3棵决策树集成的简单实例。

在上述例子的回归集合中，每棵树都预测出一个实值。这些预测值被组合起来产生最终集成的预测结果。这里，我们通过取均值的方法来取得最终的预测结果（当然不同的预测任务需要用到不同的组合算法）。

在MLlib中，随机森林和GBTs的数据都是按实例（行）存储的。算法的实现以原始的决策树代码为基础，每棵决策树采用分布式学习.

随机森林：随机森林中的每棵树都是单独训练，多棵树可以并行训练（除此之外，单独的每棵树的训练也可以并行化）。MLlib也确实是这么做的：根据当前迭代内存的限制条件，动态调整可并行训练的子树的数量。

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。