集成学习

幕布文档:集成学习-幕布
建议幕布查看,效果更好
集成学习思维导图- 集成学习(ensembale learning)概念

  • 集成学习
    通过构建并结合多个学习器来完成学习任务。又叫多分类器系统、基于委员会的学习。

  • 个体学习器+结合策略

  • 集成学习类型

    • 同质

      只包含同类型的个体学习器

      • 个体学习器称为基学习器

      • 相应的学习算法称为基学习算法

    • 异质

      包含不同类型的个体学习器

      • 个体学习器不称为基学习器,常称为组件学习器,或直接称为个体学习器
  • 弱学习器
    泛化性能略优于随机猜测的学习器,如二分类准确率略高于50%

  • 集成学习优点

    • 比单一学习器显著优越的泛化性能
  • 个体学习器原则

    • 好而不同

      • 准确性(好)

      • 多样性(不同)

  • 分类(两类)

    • 个体学习器间存在强依赖关系,必须串行生成的序列化方法

      • Boosting
    • 个体学习器间不存在强依赖关系,可同时生成的并行方法

      • Bagging

      • 随机森林(Random Forest,RF)(Random Forest,RF)

  • Boosting

    • 特点

      • 个体学习器间存在强依赖关系,必须串行生成的序列化方法
    • Boosting工作机制

      • 先从初始训练集训练出一个基学习器

      • 再根据基学习器的表现调整训练样本分布,使得先前基学习器做错的训练样本在后续受到更多关注。

      • 然后基于调整后的样本分布来训练下一个基学习器

      • 如此重复,训练T个基学习器,最终将这T个基学习器进行加权结合

    • 经典代表

      • AdaBoost
        • 仅适用于二分类任务
    • 实施方法

      • 重赋权法
        为每一个训练样本赋予权重

      • 重采样法
        根据样本分布对训练数据重采样,再用采样后的数据进行训练

    • 偏差-方差分析

      • 降低偏差
  • Bagging与随机森林

    • Bagging

      • Bagging工作机制

        • 通过采样出T个含有m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合
      • 结合方法

        • 对于分类任务

          • 简单投票法
        • 对于回归任务

          • 简单平均法
      • 自助采样法

        • 有放回的随机采样

        • 原始训练集中约有63.2%的样本出现在采样集中

        • 包外估计和包外样本

          • 使用剩下的36.8%的数据(包外样本)作为验证集对泛化性能进行包外估计
      • 偏差-方差分析

        • 降低方差

        • 在易受样本扰动的学习器(不剪枝决策树、神经网络)上效果更为明显

    • 随机森林(Random Forest,RF)

      • 随机森林工作机制

        • 随机森林在以决策树为基学习器,构建Bagging集成的基础上,在决策树的训练过程中引入随机属性选择

        • 具体而言,在选择划分属性时,传统决策树是在当前节点的属性集合(假设含d个属性)中选择一个最优属性。而在RF中,对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,再从子集中选择一个最优属性用于划分

      • 与Bagging对比

        • Bagging

          • 样本扰动
        • 随机森林RF

          • 样本扰动

          • 属性扰动

      • 优点

        • 简单

        • 容易实现

        • 计算开销小,训练性能快。因为在选择划分属性时,只考察节点属性的子集(而不是所有属性)

        • 强大的性能,“集成学习代表”

  • 结合策略

    • 平均法(回归任务)

      • 简单平均法

        • 个体性学习器性能相近时适合使用
      • 加权平均法

        • 权重一般从训练数据中学习而得

        • 个体性学习器性能相差较大时适合使用

    • 投票法(分类任务)

      • 绝对多数投票法

        • 得票过半,则预测该标记,否则拒绝预测
      • 相对多数投票法

        • 预测为得票最多的标记。若得票相同,则随机选一个
      • 加权投票法

    • 学习法

      • 通过另一个学习器进行结合

      • 典型

        • Stacking
      • 学习器

        • 个体学习器称为初级学习器

        • 结合学习器称为次级学习器或元学习器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值