随机森林（rf）梯度提升树（gbdt）和xgboost的区别与联系

最新推荐文章于 2024-08-23 11:17:30 发布

Paulzhao6518

最新推荐文章于 2024-08-23 11:17:30 发布

阅读量6k

点赞数

本文链接：https://blog.csdn.net/qq_41853758/article/details/82874407

版权

本文介绍了随机森林（RF）、梯度提升树（GBDT）和XGBoost的原理、优缺点以及它们之间的区别。RF基于Bagging，通过随机特征选择降低方差；GBDT通过迭代减少残差，适合回归问题；XGBoost在GBDT基础上优化，支持并行计算，提升模型性能。RF和GBDT适合并行训练，XGBoost引入了正则项和二阶导数，有效防止过拟合。

摘要由CSDN通过智能技术生成

由于本文是基于面试整理，因此不会过多的关注公式和推导，如果希望详细了解算法内容，敬请期待后文。
　　
　　RF、GBDT和XGBoost都属于集成学习（Ensemble Learning），集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。
　　根据个体学习器的生成方式，目前的集成学习方法大致分为两大类：即个体学习器之间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；前者的代表就是Boosting，后者的代表是Bagging和“随机森林”（Random Forest）。

1、RF

1.1 原理

　　提到随机森林，就不得不提Bagging，Bagging可以简单的理解为：放回抽样，多数表决（分类）或简单平均（回归）,同时Bagging的基学习器之间属于并列生成，不存在强依赖关系。
　　Random Forest（随机森林）是Bagging的扩展变体，它在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机特征选择，因此可以概括RF包括四个部分：1、随机选择样本（放回抽样）；2、随机选择特征；3、构建决策树；4、随机森林投票（平均）。
　　随机选择样本和Bagging相同，随机选择特征是指在树的构建中，会从样本集的特征集合中随机选择部分特征，然后再从这个子集中选择最优的属性用于划分，这种随机性导致随机森林的偏差会有稍微的增加࿰