机器学习—集成学习

最新推荐文章于 2024-03-04 22:20:27 发布

某小从余雨叚噫

最新推荐文章于 2024-03-04 22:20:27 发布

阅读量893

点赞数 26

文章标签：集成学习机器学习人工智能

本文链接：https://blog.csdn.net/m0_63807165/article/details/135658933

版权

集成学习是一种机器学习方法，它通过结合多个学习器的预测结果来提高整体模型的性能和泛化能力。这种方法通常比单一学习器更强大，因为它能够弥补各个学习器的局限性，并在多个模型之间达成共识。

以下是一些常见的集成学习方法：

Bagging（Bootstrap Aggregating）： 通过对训练数据进行有放回抽样，生成多个子样本，然后分别训练多个基学习器。最终的预测结果是这些基学习器的平均值（回归问题）或投票（分类问题）。
Boosting： 通过训练一系列的弱学习器，每个学习器都试图纠正前一个学习器的错误。AdaBoost和Gradient Boosting是常见的Boosting算法。
随机森林（Random Forest）： 是一种基于Bagging的集成学习方法，它使用多个决策树进行预测，然后通过投票机制或取平均值来得出最终结果。
Stacking： 将不同的学习器组合在一起，使用一个元学习器来整合它们的预测结果。这种方法可以在不同层次上组织学习器，形成一个层级结构。

集成学习通常能够提高模型的鲁棒性，减小过拟合风险，并在处理复杂任务时表现出色。每种方法都有其适用的场景和优势，选择合适的集成学习方法取决于具体的问题和数据集。

假设基分类器的错误率相互独立则由 Hoeffding 不等式可知集成的错误率为

其中，H(x)为集成学习器分类后的结果；f(x)为样本的真实标签；T为个体学习器的数量； $\varepsilon$ 为个体学习器的错误率。

举例解释：现在有9个学习器，若预测错误，则预测正确的学习器数量可能为1,2,3,4（<=向下取整(9/2)）。

上式显示出,随着集成中个体分类器数目T的增大集成的错误率将指数级下降,最终趋向于零.

AdaBoost（Adaptive Boosting）是一种著名的Boosting算法，旨在提高弱学习器的性能，通过迭代学习的方式逐步改善模型的准确性。由于其优秀的性能和简单的实现，AdaBoost广泛应用于分类和回归问题。

（详细的基本原理公式可参考西瓜书）

1. 基本原理

2. 算法步骤

初始化样本权重：将每个样本的权重初始化为相等值。
迭代训练：
- 对于每一轮迭代：
  - 训练一个弱学习器，关注分类错误的样本。
  - 计算该学习器的权重，取决于其分类性能。
  - 更新样本权重，增加分类错误样本的权重，减小分类正确样本的权重。
构建最终模型：将所有弱学习器组合成一个强学习器，通过对每个学习器进行加权求和。

3. 优势与特点

4. 应用场景

AdaBoost作为一种强大的Boosting算法，通过迭代学习和加权样本的策略，成功地提升了弱学习器的性能，使其在实际应用中表现出色。其简单而有效的原理使其成为机器学习领域中备受青睐的算法之一。

1. 基本原理

决策树的集成： 随机森林由多个决策树组成，每个决策树都是一个弱学习器。最终的预测结果是所有决策树的投票或平均值。
随机性引入： 在构建每棵决策树的过程中引入随机性，主要包括：
- 随机抽样：对训练数据进行有放回的抽样，用于每棵树的训练。
- 随机特征选择：在每个节点上，只考虑一个随机子集的特征进行划分。

2. 算法步骤