matlab 集成学习方法,集成学习（ensemble learning）

最新推荐文章于 2024-07-27 09:45:11 发布

小红时间

最新推荐文章于 2024-07-27 09:45:11 发布

阅读量642

点赞数

文章标签： matlab 集成学习方法

本文介绍了集成学习的基本原理，包括基学习器的准确性和多样性，并重点讲解了串行的Boosting和并行的Bagging、Random Forest算法。AdaBoost通过调整样本权重提升弱学习器性能，而Bagging和Random Forest则通过样本和属性的随机性增加多样性，降低方差。随机森林在Bagging基础上引入属性选择的随机性，提高了多样性。

摘要由CSDN通过智能技术生成

本章参考西瓜书第八章编写

从个体和集成之间的关系出发，引出了集成学习的遵循的两大标准：基学习器的准确定和多样性。然后开始介绍具体的集成学习算法：串行的Boosting和并行的Bagging，前者通过对错判训练样本重新赋权来重复训练，以提高基学习器准确性，降低偏差；后者通过采样方法，训练出多样性的基学习器，降低方差。之后又讲了Random Forest，该算法在之前采样方法的基础上，又加入了随机属性，使得多样性进一步提高，于是获得了更好的效果。

8.1 个体与集成

集成学习就是说将多个 “单个学习器(Individual Learner)”用某种策略来结合起来，组成一个“学习委员会(committee)”，使得整体的泛化性能得到大大提高。

51cb01275723

个体与集成之间的关系

如果所有的单个学习器都是同类的，例如都是决策树，或者都是神经网络，那么这个集成就叫做同质(Homogeneous)；反之，如果既有决策树又有神经网络，那么集成就叫做异质(heterogeneous)的。

总体来说，集成的泛化能力是远大于单个学习器的泛化能力的。但是同时我们也知道有木桶理论这样理论的存在。所以我们关注两个重要的概念：准确性和多样性。

准确性：个体学习器不能太差，要有一定的准确度(即不能有一个太短的短板)

多样性：个体学习器之间的输出要具有差异性(各有所长的意思，不能所有的学习器的优点都是一样的)

51cb01275723

准确度和多样性对集合泛化性能的影响

现在考虑二分类的简单情形，假设基分类器之间相互独立(可以提供较高的差异度)，切错误率均为 ε，则可以将集成器的预测看做一个伯努利实验，易知当所有及分类器中不足一半预测正确的情况下，集成预测错误，所以集成器的错误率可以计算为：

51cb01275723

继承错误率推导

可以看到的是，集成器错误率，随着基分类器个数的增加而呈现指数下降。

但是这个推导前提是所有基分类器相互独立，显然在现实中，个体学习器是为了解决同一个问题而训练出来的，是不会独立的。所以来说，个体学习器的“准确性”和“差异性”本身就是矛盾的。所以如何产生和结合“好而不同”的个体学习器，是集成学习的核心。现阶段有3种主流集成学习的方法：Boosting 、Bagging、随机森林(Random Forest)。下面我们来介绍这几种方法。

8.2 Boosting

Boosting 是一族可以将弱学习器提升为强学习器的算法。这是一种串行的思