集成学习（Ensemble Learning）

deepdata_cn

于 2024-05-25 08:00:00 发布

阅读量1.1k

点赞数 25

分类专栏：机器学习人工智能文章标签：集成学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43156294/article/details/139030822

版权

在这里插入图片描述
集成学习（Ensemble Learning）是一种机器学习技术，它通过组合多个模型来提高整体的预测或分类性能。集成学习的基本思想是“三个臭皮匠，顶个诸葛亮”，即多个弱学习器（weak learners）的组合可以形成一个强学习器（strong learner）。集成学习通常能够提供比单一模型更好的泛化能力，减少过拟合的风险。

一、集成学习的主要方法

Bagging（Bootstrap Aggregating）：
- 代表性算法：随机森林（Random Forest）。
- 原理：对原始数据集进行多次有放回的抽样（bootstrap sampling），生成多个不同的训练数据集。
- 每个训练数据集上训练一个基模型。
- 通过投票或平均等方法结合各个基模型的预测结果。
Boosting：
- 代表性算法：AdaBoost、Gradient Boosting、XGBoost、LightGBM。
- 原理：按顺序训练多个模型，每个新模型都在前一个模型的残差上进行训练。
- 每个模型的权重会根据其性能进行调整，以优化整体性能。
Stacking（堆叠）：
- 原理：将多个不同模型的预测结果作为新的特征，输入到一个或多个元模型（meta-learner）中进行训练。
- 元模型可以是任何类型的机器学习算法。
Blending：
- 原理：与Stacking类似，但通常使用不同的方法来组合基模型的预测。
Hybrid Methods：
- 结合多种集成技术，例如，先使用Boosting方法训练多个模型，然后使用Bagging方法将这些模型集成起来。