matlab 集成学习方法,集成学习（ensemble learning）

最新推荐文章于 2024-06-06 10:19:30 发布

华颜锦知

最新推荐文章于 2024-06-06 10:19:30 发布

阅读量1.8k

点赞数

文章标签： matlab 集成学习方法

本章参考西瓜书第八章编写从个体和集成之间的关系出发，引出了集成学习的遵循的两大标准：基学习器的准确定和多样性。然后开始介绍具体的集成学习算法：串行的Boosting和并行的Bagging，前者通过对错判训练样本重新赋权来重复训练，以提高基学习器准确性，降低偏差；后者通过采样方法，训练出多样性的基学习器，降低方差。之后又讲了Random Forest，该算法在之前采样方法的基础上，又加入了随机属性，...

摘要由CSDN通过智能技术生成

本章参考西瓜书第八章编写

从个体和集成之间的关系出发，引出了集成学习的遵循的两大标准：基学习器的准确定和多样性。然后开始介绍具体的集成学习算法：串行的Boosting和并行的Bagging，前者通过对错判训练样本重新赋权来重复训练，以提高基学习器准确性，降低偏差；后者通过采样方法，训练出多样性的基学习器，降低方差。之后又讲了Random Forest，该算法在之前采样方法的基础上，又加入了随机属性，使得多样性进一步提高，于是获得了更好的效果。

8.1 个体与集成

集成学习就是说将多个 “单个学习器(Individual Learner)”用某种策略来结合起来，组成一个“学习委员会(committee)”，使得整体的泛化性能得到大大提高。

51cb01275723

个体与集成之间的关系

如果所有的单个学习器都是同类的，例如都是决策树，或者都是神经网络，那么这个集成就叫做同质(Homogeneous)；反之，如果既有决策树又有神经网络，那么集成就叫做异质(heterogeneous)的。

总体来说，集成的泛化能力是远大于单个学习器的泛化能力的。但是同时我们也知道有木桶理论这样理论的存在。所以我们关注两个重要的概念：准确性和多样性。

准确性：个体学习器不能太差，要有一定的准确度(即不能有一个太短的短板)

多样性：个体学习器之间的输出要具有差异性(各有所长的意思，不能所有的学习器的优点都是一样的)

51cb01275723

准确度和多样性对集合泛化性能的影响

现在考虑二分类的简单情形，假设基分类器之间相互独立(可以提供较高的差异度)，切错误率均为 ε，则可以将集成器的预测看做一个伯努利实验，易知当所有及分类器中不足一半预测正确的情况下，集成预测错误，所以集成器的错误率可以计算为：

51cb01275723

继承错误率推导

可以看到的是，集成器错误率，随着基分类器个数的增加而呈现指数下降。

但是这个推导前提是所有基分类器相互独立，显然在现实中，个体学习器是为了解决同一个问题而训练出来的，是不会独立的。所以来说，个体学习器的“准确性”和“差异性”本身就是矛盾的。所以如何产生和结合“好而不同”的个体学习器，是集成学习的核心。现阶段有3种主流集成学习的方法：Boosting 、Bagging、随机森林(Random Forest)。下面我们来介绍这几种方法。

8.2 Boosting

Boosting 是一族可以将弱学习器提升为强学习器的算法。这是一种串行的思想，序列化进行。基本思想是：增加前一个基学习器预测错误的样本的权值

最低0.47元/天解锁文章

华颜锦知

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
matlab 集成学习方法,集成学习（ensemble learning）

本章参考西瓜书第八章编写从个体和集成之间的关系出发，引出了集成学习的遵循的两大标准：基学习器的准确定和多样性。然后开始介绍具体的集成学习算法：串行的Boosting和并行的Bagging，前者通过对错判训练样本重新赋权来重复训练，以提高基学习器准确性，降低偏差；后者通过采样方法，训练出多样性的基学习器，降低方差。之后又讲了Random Forest，该算法在之前采样方法的基础上，又加入了随机属性，...
复制链接

扫一扫