集成学习介绍-CSDN博客

本文链接：https://blog.csdn.net/m0_50920058/article/details/147223537

集成学习（Ensemble Learning）是一种机器学习范式，它通过组合多个模型的预测来提高整体模型的性能。单一模型可能在某些方面表现不佳或具有较高的偏差或方差，而集成方法能够通过结合多个模型的优点来克服这些问题，从而提供更稳定和准确的预测结果。集成学习通常用于改进分类、回归以及异常检测等任务。

常见的集成学习方法

1. Bagging（Bootstrap Aggregating）

概念：Bagging 方法通过对数据集进行有放回抽样创建多个子集，然后训练不同的模型（通常是同一类型的模型）。每个模型独立地对新的数据点进行预测，最终的结果是所有模型预测的平均值（对于回归问题）或多数投票（对于分类问题）。
代表算法：随机森林（Random Forests）就是一种基于决策树的 Bagging 方法。它通过构建多个决策树并对它们的预测结果取平均或投票来减少单个决策树的过拟合风险。

2. Boosting

概念：Boosting 是一种迭代方法，它按顺序训练一系列弱学习器（weak learners），其中每一个学习器都会纠正前一个学习器的错误。Boosting 方法强调那些被先前模型误分类的数据点，因此可以逐步提高模型的整体准确性。
代表算法：
- AdaBoost（Adaptive Boosting）
- Gradient Boosting Machines (GBM)
- XGBoost、LightGBM 和 CatBoost 是基于梯度提升的高效实现，特别适合处理大规模数据集。