集成学习常见算法（RF、AdaBoost、GBDT和XGBoost）特点及对比

最新推荐文章于 2025-05-06 14:53:13 发布

Juvember

最新推荐文章于 2025-05-06 14:53:13 发布

阅读量1.2k

点赞数 20

文章标签：集成学习算法机器学习

本文链接：https://blog.csdn.net/qq_42533357/article/details/135822779

版权

本文详细介绍了集成学习的基本概念，重点对比了随机森林、AdaBoost、GBDT和XGBoost这四种常见的算法。通过串行化和并行化的思想，探讨了它们的构建流程、预测结果和优势特点，以及在分类和回归任务中的应用和性能优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

集成学习简介

集成学习（Ensemble Learning）是一种机器学习范式，它通过构建并结合多个基学习器（或称为弱学习器）的预测结果来改善整体模型的性能。其基本思想是“三个臭皮匠赛过诸葛亮”，即虽然单个学习器可能只有有限的学习能力或泛化能力，但通过合理地将它们的预测结果聚合起来，可以创建一个更强大、更稳健且具有更好泛化性能的集成模型。

在集成学习中，个体学习器通常是同质的或者异质的，可以基于不同的算法训练而成，也可以在数据的不同子集上训练得到。主要分为两大类集成思想：

1. 串行化思想

Boosting：这种方法逐步构建模型序列，每个新模型都着重于纠正前一步模型的错误。经典的Boosting算法包括AdaBoost、Gradient Boosting Decision Tree (GBDT)和XGBoost等。
思想特点：
（1）每一个训练器重点关注前一个训练器不足的地方进行训练；
（2）加权投票；
（3）串行训练。

2. 并行化思想

Bagging：Bootstrap Aggregating，通过从原始数据集中抽样产生多个数据子集（bootstrap sample），然后在这些子集上独立训练多个模型，如决策树，最后通过投票（分类任务）或平均（回归任务）等方式整合各个模型的结果。随机森林就是Bagging的一个著名应用。
思想特点：
（1）有放回的抽样（即可以对样本抽样，也可以对特征抽样）；
（2）平权投票；
（3）弱学习器并行训练。

结合策略主要包括但不限于以下几种：