机器学习：集成学习笔记

Ningbo_JiaYT

已于 2023-12-25 14:30:16 修改

阅读量458

点赞数 7

分类专栏：机器学习文章标签：集成学习机器学习

于 2023-12-24 21:36:48 首次发布

本文链接：https://blog.csdn.net/Ningbo_JiaYT/article/details/135185794

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

简介

机器学习的目标是训练出一个稳定且预测准确的学习器（模型），但实际训练得到的学习器经常是有偏好的（即在某些方面表现较好）。集成学习通过将多个学习器组合在一起，以期望获得比单个学习器更好的整体性能。

核心思想

通过结合多个弱学习器的预测结果来产生一个强学习器，从而提高模型的泛化能力和稳定性，获得准确且稳定的预测结果。

算法构建

由构建基学习器和模型融合两部分组成。

1.构建基学习器

即生成一系列基学习器的过程：

1.1 选择基学习器：选择弱学习器或基学习器是集成学习的第一步。基学习器可以是任何在任务上略优于随机猜测的学习算法，常见的包括决策树、支持向量机、神经网络等。不同的基学习器之间应该具有一定的多样性，以确保集成的效果。

1.2 训练基学习器：每个基学习器都在不同的数据子集或样本上进行训练。在 Bagging 中，通常是通过有放回的随机抽样（bootstrap sampling）获得不同的训练集。在 Boosting 中，每个学习器的训练集都依赖于前一个学习器的性能，更关注前一轮中被错误分类的样本。

1.3 基学习器须满足以下两个基本条件：①准确性 ≥ 50%，即优于随机猜测；②具有多样性，即学习器间彼此存在差异。（通过引入不同的学习算法、不同的训练数据或不同的特征子集来提高多样性）

2.模型融合

即组合所有的基学习器，有利于防止过拟合和欠拟合。

2.1 Bagging 的模型融合：对于 Bagging 类型的集成学习，模型融合是通过平均（对于回归问题）或投票（对于分类问题）来实现的。每个基学习器的输出被整合成最终的集成输出。特点是：模型的泛化能力强，但不一定是最好的模型。

2.2 Boosting 的模型融合：Boosting 类型的集成学习中，模型融合是通过对每个基学习器赋予不同的权重，或通过不同的方式组合基学习器的输出来实现的。例如，AdaBoost通过迭代加大被错误分类的样本的权重，而Gradient Boosting通过使用残差来训练后续的学习器。

2.3 Stacking 的模型融合：在 Stacking 中，构建一个元模型（meta-model）来组合基学习器的输出。首先，基学习器在训练集上产生预测结果，然后这些结果作为输入被用于训练元模型。元模型学习如何组合基学习器的预测以获得最终的集成输出。

模型融合的目标是在多个学习器的贡献下提高整体性能，通过组合不同学习器的优势，克服单个学习器的局限性，提高泛化能力和鲁棒性。在选择和构建基学习器以及进行模型融合时，需要综合考虑任务的性质、数据的特点以及计算资源的限制。

3.集成方法

包括 Bagging、Boosting 和 Stacking。

3.1 Bagging（Bootstrap Aggregating）：通过对训练数据进行有放回的随机抽样（bootstrap sampling），构建多个独立的弱学习器，然后将它们的预测结果进行平均（对于回归问题）或投票（对于分类问题）来得到集成模型。随机森林就是Bagging的一个例子。

3.2 Boosting：Boosting方法是通过迭代训练弱学习器，每一轮都根据前一轮的错误来调整样本权重，使得模型对前一轮预测错误的样本有更高的关注度。常见的Boosting算法包括 AdaBoost、Gradient Boosting 和 XGBoost。

3.3 Stacking：Stacking是一种更高级的集成方法，它不仅仅是平均或投票，而是使用另一个模型来学习如何结合基础模型的预测。通过在一个元模型上训练，它可以学习不同基础模型的权重和/或结合策略。