matlab 集成学习方法,集成学习(ensemble learning)

本章参考西瓜书第八章编写从个体和集成之间的关系出发,引出了集成学习的遵循的两大标准:基学习器的准确定和多样性。然后开始介绍具体的集成学习算法:串行的Boosting和并行的Bagging,前者通过对错判训练样本重新赋权来重复训练,以提高基学习器准确性,降低偏差;后者通过采样方法,训练出多样性的基学习器,降低方差。之后又讲了Random Forest,该算法在之前采样方法的基础上,又加入了随机属性,...
摘要由CSDN通过智能技术生成

本章参考西瓜书第八章编写

从个体和集成之间的关系出发,引出了集成学习的遵循的两大标准:基学习器的准确定和多样性。然后开始介绍具体的集成学习算法:串行的Boosting和并行的Bagging,前者通过对错判训练样本重新赋权来重复训练,以提高基学习器准确性,降低偏差;后者通过采样方法,训练出多样性的基学习器,降低方差。之后又讲了Random Forest,该算法在之前采样方法的基础上,又加入了随机属性,使得多样性进一步提高,于是获得了更好的效果。

8.1 个体与集成

集成学习就是说将多个 “单个学习器(Individual Learner)”用某种策略来结合起来,组成一个“学习委员会(committee)”,使得整体的泛化性能得到大大提高。

51cb01275723

个体与集成之间的关系

如果所有的单个学习器都是同类的,例如都是决策树,或者都是神经网络,那么这个集成就叫做同质(Homogeneous);反之,如果既有决策树又有神经网络,那么集成就叫做异质(heterogeneous)的。

总体来说,集成的泛化能力是远大于单个学习器的泛化能力的。但是同时我们也知道有木桶理论这样理论的存在。所以我们关注两个重要的概念:准确性和多样性。

准确性:个体学习器不能太差,要有一定的准确度(即不能有一个太短的短板)

多样性:个体学习器之间的输出要具有差异性(各有所长的意思,不能所有的学习器的优点都是一样的)

51cb01275723

准确度和多样性对集合泛化性能的影响

现在考虑二分类的简单情形,假设基分类器之间相互独立(可以提供较高的差异度),切错误率均为 ε,则可以将集成器的预测看做一个伯努利实验,易知当所有及分类器中不足一半预测正确的情况下,集成预测错误,所以集成器的错误率可以计算为:

51cb01275723

继承错误率推导

可以看到的是,集成器错误率,随着基分类器个数的增加而呈现指数下降。

但是这个推导前提是所有基分类器相互独立,显然在现实中,个体学习器是为了解决同一个问题而训练出来的,是不会独立的。所以来说,个体学习器的“准确性”和“差异性”本身就是矛盾的。所以如何产生和结合“好而不同”的个体学习器,是集成学习的核心。现阶段有3种主流集成学习的方法:Boosting 、Bagging、随机森林(Random Forest)。下面我们来介绍这几种方法。

8.2 Boosting

Boosting 是一族可以将弱学习器提升为强学习器的算法。这是一种串行的思想,序列化进行。基本思想是:增加前一个基学习器预测错误的样本的权值

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值