集成学习基本概念

个体与集成

集成学习( ensemble learning e n s e m b l e   l e a r n i n g )通过构建并结合多个学习器来完成学习任务,有时候也被称为多分类器系统( multiclassifier system m u l t i − c l a s s i f i e r   s y s t e m )、基于委员会的学习( committeebased learning c o m m i t t e e − b a s e d   l e a r n i n g )等。

通过聚集多个分类器的预测来提高分类准确率,这些技术成为组合(或者分类器组合)
组合方法由训练数据构建一组基分类器,然后对每个基分类器的预测进行投票来分类。

基本流程:

这里写图片描述

构建组合分类器的基本方法

通过处理训练数据集

样例:
装袋(bagging)和提升(boosting)
做法:
根据某种抽样分布,通过对原始数据进行再抽样来得到多个训练集。抽样分布决定了一个样本作为训练的可能性的大小,并且可能因为试验而异,然后使用特定的学习算法为每个训练集合建立一个分类器。

通过处理输入特征

样例:
随机森林(Random Forest)
做法:
通过选择输入特征的子集来形成每个训练集合。子集可以随机选择,也可以根据领域专家的建议选择。一些研究表明,对于那些含有大量冗余特征的数据集,这种方法的性能非常好。

通过处理类标号

样例: ECOC E C O C
做法:
适用于类足够多的情况,通过将类的标号随机划分为两个不相交的子集 A0 A 0 A1 A 1 ,把训练数据变化为二类问题。类标号属于子集 A0 A 0 的训练样本指派到类 0 0 而那些类标号属于子集A1的被指派到类 1 1 ,然后使用重新标记过的数据来训练一个基分类器。重复重新标记类和构建模型步骤多次,就得到一组基分类器。当遇到一个检验样本的时候,使用每个基分类器Ci预测他的类标号。如果检测样本被预测为类 0 0 ,则所有属于A0的类都的到一票。相反如果它被预测为类 1 1 则所有属于A1的类都得到一票。最后统计选票,将检测结果指派到的得票最高的类。

通过处理学习算法

同一个训练数据集上多次执行算法可能得到不同的模型。

组合方法的一般过程:

这里写图片描述

投票方法

Vote V o t e

平均法

简单平均法

H(x)=1TTi=1hi(x) H ( x ) = 1 T ∑ i = 1 T h i ( x )

加权平均法

H(x)=Ti=1wihi(x) H ( x ) = ∑ i = 1 T w i h i ( x )
其中 wi w i 是个体学习器 hi h i 的权重,通常要求 wi0,Ti=1wi=1 w i ≥ 0 , ∑ i = 1 T w i = 1

投票法

绝对多数投票法

H(x)=cj,reject,ifi=1Thji(x)>0.5k=1Ni=1Thki(x)otherwise H ( x ) = { c j , i f ∑ i = 1 T h i j ( x ) > 0.5 ∑ k = 1 N ∑ i = 1 T h i k ( x ) r e j e c t , o t h e r w i s e

若某个标记的票过半,则预测结果是该标记,否则拒绝预测。

相对多数投票法

H(x)=cargmaxjTi=1hji(x) H ( x ) = c arg ⁡ max j ⁡ ∑ i = 1 T h i j ( x )

加权投票法

H(x)=cargmaxjTi=1wihji(x) H ( x ) = c arg ⁡ max j ⁡ ∑ i = 1 T w i h i j ( x )

其中 wi w i 是个体学习器 hi h i 的权重,通常要求 wi0,Ti=1wi=1 w i ≥ 0 , ∑ i = 1 T w i = 1

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值