9.2群策群议:Bagging

  • Combiners

    • 集成学习的核心:Combiner(因为不同的分类器有不同的输出,最后却要形成一个统一的决定)
      • Majority Voting(少数服从多数)
      • Weighted Majority Voting(加权右下角图中用“阿尔法”表示,每个分类器的权重不同,“老板”说话和“普通员工”说话不同)
  • Diversity
    • 假设、前提:集成学习effective(有用、有效果)的前提是使用不同的分类器

      • Different Learning Algorithms
        • 不同的分类器,例如决策树、支持向量机、神经网络
      • Different Training Processes
        • 大多数情况下,我们倾向于用相同的分类器(更便捷)
          • 使用不同训练集
          • 初始参数不同
          • 特征不同
    • 好处
      • 不需要使用很强的分类器,越强的分类器训练时的问题越多(例如计算复杂度高、过学习等)
  • Bootstrap Samples

    • 问题:如何生成不同的训练样本,但是又服从类似的分布?
    • 解决:bootstrap,一个·非常有名的统计学的采样方法(简单来说是有放回的采样)
    • 方法:采样后的每一个Sample作为训练集,再训练,容易训练出不太一样的分类器
  • Bagging

    • 拿来一个数据集,使用Bootstrap采样50次,生成50个不同的sample
    • 训练分类器(50个分类器在每一个不同的训练样本上独立训练)
    • 得到了50个分类器后,“来了”一个未知样本,它到底是哪个分类(+1、-1)?
    • 由50个“人”投票(说+1的多就是+1,-1的多就是-1),并且可以推广到多类问题
  • Bagging

  • 具体例子:
    • 决策树(A Decision Tree)

    • Tree vs. Forest

      • 问题:如何把长得不同的决策树合在一起,形成一个好的分类器?
      • 解决:随机森林(Random Forest)
  • Random Forest

    • 基本思想:Bagging(是Bagging的一个实例)
    • 一般来说随机森林有500-5000棵树
    • 公式:1/n为样本被选中的概率,1-1/n为样本没有被选中的概率。如果选了n次都没被选中,则加n次方,最后用1减去,含义为样本至少有一次被选中了的概率,当n趋于无穷时求得的值约为2/3
    • 用处:2/3选中的可作为训练集,1/3没被选中的可作为测试集
  • RF Main Features

    • 随机森林花了非常多的心思生成不同的决策树
      • 训练集不同
      • 不是通过计算信息熵找出最好的属性分裂,而是随机取部分属性
  • RF Advantages

    • 所有数据都可以被充分利用,不需要额外留出数据测试,即自然而然会有1/3没有“装”到训练集中的样本作为测试集:OOB(Out of Bag)
    • 拿出一个样本,查找500棵树中哪些树中此样本是OOB(没有用此样本训练过,可以用这棵树来测试性能)
    • 随机森林可以达到很高的精确度,需要调整的参数很少
    • 决策树有过学习问题,随机森林中可以生成很深的决策树,但是所有决策树combine起来后,这个问题就会被大大削弱
    • 特征选择(100个属性,开根号为10,则随机选择10个属性生成随机森林中各个不同的决策树)
    • 模型结果通常不错
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值