个体与集成
集成学习( ensemble learning e n s e m b l e l e a r n i n g )通过构建并结合多个学习器来完成学习任务,有时候也被称为多分类器系统( multi−classifier system m u l t i − c l a s s i f i e r s y s t e m )、基于委员会的学习( committee−based learning c o m m i t t e e − b a s e d l e a r n i n g )等。
通过聚集多个分类器的预测来提高分类准确率,这些技术成为组合(或者分类器组合)
组合方法由训练数据构建一组基分类器,然后对每个基分类器的预测进行投票来分类。
基本流程:
构建组合分类器的基本方法
通过处理训练数据集
样例:
装袋(bagging)和提升(boosting)
做法:
根据某种抽样分布,通过对原始数据进行再抽样来得到多个训练集。抽样分布决定了一个样本作为训练的可能性的大小,并且可能因为试验而异,然后使用特定的学习算法为每个训练集合建立一个分类器。
通过处理输入特征
样例:
随机森林(Random Forest)
做法:
通过选择输入特征的子集来形成每个训练集合。子集可以随机选择,也可以根据领域专家的建议选择。一些研究表明,对于那些含有大量冗余特征的数据集,这种方法的性能非常好。
通过处理类标号
样例:
ECOC
E
C
O
C
码
做法:
适用于类足够多的情况,通过将类的标号随机划分为两个不相交的子集
A0
A
0
和
A1
A
1
,把训练数据变化为二类问题。类标号属于子集
A0
A
0
的训练样本指派到类
0
0
而那些类标号属于子集的被指派到类
1
1
,然后使用重新标记过的数据来训练一个基分类器。重复重新标记类和构建模型步骤多次,就得到一组基分类器。当遇到一个检验样本的时候,使用每个基分类器预测他的类标号。如果检测样本被预测为类
0
0
,则所有属于的类都的到一票。相反如果它被预测为类
1
1
则所有属于的类都得到一票。最后统计选票,将检测结果指派到的得票最高的类。
通过处理学习算法
同一个训练数据集上多次执行算法可能得到不同的模型。
组合方法的一般过程:
投票方法
Vote V o t e
平均法
简单平均法
H(x)=1T∑Ti=1hi(x) H ( x ) = 1 T ∑ i = 1 T h i ( x )
加权平均法
H(x)=∑Ti=1wihi(x)
H
(
x
)
=
∑
i
=
1
T
w
i
h
i
(
x
)
其中
wi
w
i
是个体学习器
hi
h
i
的权重,通常要求
wi≥0,∑Ti=1wi=1
w
i
≥
0
,
∑
i
=
1
T
w
i
=
1
投票法
绝对多数投票法
若某个标记的票过半,则预测结果是该标记,否则拒绝预测。
相对多数投票法
加权投票法
其中 wi w i 是个体学习器 hi h i 的权重,通常要求 wi≥0,∑Ti=1wi=1 w i ≥ 0 , ∑ i = 1 T w i = 1