结合策略
学习器结合可能会从三个方面带来好处: 首先,从统计的方面来看,由于学习任务的假设空间往往很大,可能有多个假设在训练集上达到同等性能,此时若使用单学习器可能因误选而导致泛化性能不佳,结合多个学习器则会减小这一风险;第二,从计算的方面来看,学习算法往往会陷入局部极小,有的局部极小点所对应的泛化性能可能很糟糕 ,而通过多次运行之后进行结合,可降低陷入糟糕局部极小点的风险;第三, 从表示的方面来看,某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中,此时若使用单学习器则肯定无效,而通过结合多个学习器 ,由于相应的假设空间有所扩大,有可能学得更好的近似。
假定包含T个基学习器{h1,h2,.....,hT},其中hi在示例x上的输出为hi(x)。以下为集中对hi进行结合的常见策略。
1、平均法
简单平均法
加权平均法
2、投票法
绝对多数投票法
即某标记得票过半,则预测为该标记;否则拒绝预测。
相对多数投票法
即预测为得票最多的标记,若同时有多个标记获最高票,则从中随机选取一个。
加权投票法
3、学习法
通过另一个学习器来拟合。Stacking是学习法的典型代表。这里我们把个体学习器称为初级学习器,用于结合的学习器称为次级学习器或元学习器。
次级学习器的输入属性表示和次级学习算法对Stacking集成的泛化性能有很大影响。有研究表明,将初级学习器的输出类概率作为次级学习器的输入属性,用多响应线性回归(简称MLR)作为次级学习算法效果较好,在MLR中使用不同的属性集更佳。
注:MLR是基于线性回归的分类器,它对每个类分别进行线性回归,属于该类的训练样例所对应的输出被置为 1,其他类置为0;测试示例将被分给输出值最大的类.。
多样性
误差-分歧分解
多样性度量
---用于度量集成中个体分类器的多样性,即估算个体学习器的多样化程度。典型做法是考虑个体分类器的两两相似/不相似性。