集成学习(Ensemble Learning)

Ensemble Learning现在基本上就叫集成学习。相关的概念有上面说的多模型系统(这实际上在很大程度上对应了机器学习里面的多专家混合)、Committee Learning、Modular systems、多分类器系统等等。这些概念相互之间有非常密切的联系,但仔细来说还是有些区别。问题是对这些概念的界定,目前并没有什么共识,有时不同的人在用不同的术语说同一个东西,也有时是用同一个术语说不同的东西,所以区别也只能是各说各话了。个人认为,集成学习一个非常重要的性质就是个体学习器是为同一个问题进行学习,这与分而治之式地把问题分解为若干个子问题,然后再想办法从个别解求得整体解是不同的,因为前者导致了学习的难点在于个体学习器差异的获得,而后者则在差异上没有难点(因为个体本来就是解决不同的问题),而在问题分解上很困难。换一个角度来说,对集成学习系统来说,随便把它的一个个体学习器拿出来,都是能解决整个问题的,而对后面的这种系统来说,拿出一个个体学习器只能解决一个子问题,不能解决整个问题。和后者最对应的应该是Modular system,多专家混合也非常偏向于后者。Committe learning和集成学习要相近一些。而多分类器系统,则是在分类器意义上的全包含。大家的最终目标实际上都是一样的,但由于途径不同,面对的难点就不太一样了,所以研究重点也不太一样。另外,有的东西,很难严格地说它属于某一类。不过,对到底什么是ensemble learning,现在并没有界定清楚。
我们姑且把前面的提法称为狭义的ensemble learning,而把只要利用多个学习器就叫ensemble的这种称为广义的ensemble learning把贝叶斯理论和统计学习理论为标准划出两大类,未必合适。贝叶斯理论和统计学习理论本来就不是对立的两个东西。实际上,ensemble learning这个词最早是被做贝叶斯的人用出来的,而多学习器的思想很早以前就有了,但没有一个特别的名字,这也在一定程度上导致了前面提到的那么多相关的概念,后来ensemble learning这个词慢慢地被扩展到非贝叶斯学习系统,然后又慢慢地生长,到现在基本上就有了前面说的含义。
在ensemble learning的内涵还没有被清楚地界定出来之前,对它的分类是很困难甚至不可能的。这个问题应该还是open problem。虽然Dietterich在他的一系列文章里给出了一些说法,但这些说法我不太认为是真正的“有效性理论基础”,说成是猜想或者直观解释可能更合适些。个人认为,由于ensemble learning的内涵并没有清楚的界定,叫这个名字的很多东西其实是利用了不同的机制,所以其有效性的理论基础未必是一样的。这方面关于boosting类讨论得比较多,对bagging的讨论最近也开始有了。最终我们可能会得到不同的有效性机制,然后可能根据不同的机制划分出不同的类别,但这是若干年后的事了。
boosting、bagging、stacking的文章应该是要看的,Krogh和Vedelsby的文章是重要的。Ditterich在AI Mag97的文章也值得读。由于ensemble learning的内涵并没有界定清楚,所以涉及的东西太多,目前还远没有到能很清楚地把这个领域的知识系统化的程度。机器学习、模式识别、信息融合等等都有大量有关的内容,现阶段很难开出一个清楚的单子。但是不妨把最近几年top journal和top conference上的有关文章找来看看。


转 自 NJU  baihe Daniel  

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值