集成学习——组合不同的模型

集成学习(ensemble method)的目标是:将不同的分类器组合成为一个元分类器,与包含于其中的单个分类器相比,元分类器具有更好的泛化性能。

多数投票原则(majority voting):将大多数分类器预测的结果作为最终类标,也就是说,将得票率超过50%的结果作为类标。多类标分类选择得票最多的类别。

多数投票

基于训练集,首先训练 m 个不同的成员分类器 (C1,...,Cm) ( C 1 , . . . , C m ) ,在多数投票原则下,可集成不同的分类算法,,如决策树、支持向量机、逻辑回归等。此外,也可以使用相同的成员分类算法拟合不同的训练子集,这种方法典型的例子就是随机森林算法,它组合了不同的决策树分类器。

多数投票原则的通用集成方法

想要通过简单的多数投票原则对类标进行预测,要汇总所有分类器 Cj C j 的预测类标,并选出得票率最高的类别 y^ y ^
多数投票原则

假定二类别分类中的 n 个成员分类器都有相同的出错率 ε ε ,此外,假定每个分类器都是独立的,且出错率之间是不相关的。基于这些假设,可以将成员分类器集成后的出错概率简单地表示为二项分布的概率密度函数:
集成出错概率

from scipy.misc import comb
import math
def ensemble_error(n_classifier, error):
    k_start = math.ceil(n_classifier / 2.0)
    probs = [comb(n_classifier, k) * error ** k * (1 - error) ** (n_classifier - k) for k in range(k_start, n_classifier + 1)]
    return sum(probs)

print(ensemble_error(n_classifier=11, error=0.25))

执行结果如下:

0.03432750701904297

实现 ensemble_error 函数后,在成员分类器出错概率介于0.0到1.0范围内,可以计算对应集成分类器的出错率。

import numpy as np 
error_range = np.arange( 0.0, 1.0, 0.01)
ens_error = [ensemble_error(n_classifier=11, error=error) for error in error_range]
import matplotlib.pyplot as plt 
plt.plot(error_range, ens_error, label='Ensemble error', linewidth=2)
plt.plot(error_range, error_range, linestyle='--', label='Base error', linewidth=2)
plt.xlabel('Base error')
plt.ylabel('Base/Ensemble error')
plt.legend(loc='upper left')
plt.grid()
plt.show()

集成分类器出错概率

从图中可见,当成员分类器出错率低于随机猜测时( ε<0.5 ε < 0.5 ),集成分类器的出错率要低于单个分类器。

实现简单多数投票分类器

集成算法允许我们使用单独的权重对不同算法进行组合。我们的目标是构建一个更加强大的元分类器,以特定的数据集上平衡单个分类器的弱点。通过更严格的数学概念,可将加权多数投票记为:
加权多数投票

其中, wj w j 是成员分类器 Cj C j 对应的权重, y^ y ^ 为集成分类器的预测类标,

  • 5
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值