什么是集成学习？-CSDN博客

本文链接：https://blog.csdn.net/m0_51317300/article/details/141232981

集成学习（Ensemble Learning）是一种机器学习方法，通过将多个模型的预测结果结合起来，提升整体预测性能。与单一模型相比，集成学习通常能提供更好的泛化能力和更高的准确性。常见的集成学习方法包括：
1. Bagging（Bootstrap Aggregating）
原理：通过从训练数据中有放回地抽样（bootstrap sampling），生成多个训练集，并在每个训练集上训练一个基础模型。最终的预测结果是这些模型预测结果的平均值（回归）或投票结果（分类）。
示例：随机森林（Random Forest）。
2. Boosting
原理：逐步训练模型，每个新模型试图纠正前一个模型的错误。通过加权的方式使得后续模型更加关注难以分类的样本。最终将所有模型的预测结果加权汇总。
示例：AdaBoost、Gradient Boosting Machine（GBM）、XGBoost、LightGBM、CatBoost。
3. Stacking（Stacked Generalization）
原理：训练多个基础模型，并将这些模型的预测结果作为新的特征输入到一个“元模型”（stacking model）中进行最终预测。元模型负责综合基础模型的预测结果。
示例：将逻辑回归、支持向量机、决策树等不同类型的模型的预测结果作为输入，训练一个元模型（如逻辑回归）进行最终预测。
4. Voting
原理：对多个模型的预测结果进行投票来决定最终的预测结果。对于分类任务，可以使用多数投票（majority voting）或加权投票（weighted voting）；对于回归任务，可以使用平均投票。
示例：简单投票机制，其中每个模型对结果进行投票，最终选择票数最多的结果，或对模型预测结果进行加权平均。
5. Bagging vs. Boosting
Bagging：减少模型的方差，适用于高方差的模型，如决策树。通过对多个训练集进行训练，降低过拟合风险。
Boosting：减少模型的偏差，适用于高偏差的模型。逐步改进模型的预测能力，增加模型的复杂性和准确性。
6. Blending
原理：与Stacking类似，但通常在数据集上进行拆分，首先在训练集上训练基础模型，然后在验证集上训练元模型。与Stacking不同的是，Blending的训练过程不使用交叉验证。
示例：类似于Stacking，但数据分割和模型训练步骤有所不同。
7. Multi-view Learning
原理：利用不同视角或特征子集来训练多个模型，结合这些视角的预测结果以提高模型性能。
示例：在图像处理任务中，可以使用不同的图像特征来训练多个模型，然后结合这些特征的预测结果。