集成学习

最新推荐文章于 2024-09-19 22:52:30 发布

绝版小哥

最新推荐文章于 2024-09-19 22:52:30 发布

阅读量178

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_36999834/article/details/115306864

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

幕布文档：集成学习-幕布
建议幕布查看，效果更好
集成学习思维导图 - 集成学习（ensembale learning）概念

集成学习
通过构建并结合多个学习器来完成学习任务。又叫多分类器系统、基于委员会的学习。
个体学习器+结合策略
集成学习类型
- 同质
  
  只包含同类型的个体学习器
  - 个体学习器称为基学习器
  - 相应的学习算法称为基学习算法
- 异质
  
  包含不同类型的个体学习器
  - 个体学习器不称为基学习器，常称为组件学习器，或直接称为个体学习器
弱学习器
泛化性能略优于随机猜测的学习器，如二分类准确率略高于50%
集成学习优点
- 比单一学习器显著优越的泛化性能
个体学习器原则
- 好而不同
  - 准确性（好）
  - 多样性（不同）
分类（两类）
- 个体学习器间存在强依赖关系，必须串行生成的序列化方法
  - Boosting
- 个体学习器间不存在强依赖关系，可同时生成的并行方法
  - Bagging
  - 随机森林（Random Forest，RF）（Random Forest，RF）
Boosting
- 特点
  - 个体学习器间存在强依赖关系，必须串行生成的序列化方法
- Boosting工作机制
  - 先从初始训练集训练出一个基学习器
  - 再根据基学习器的表现调整训练样本分布，使得先前基学习器做错的训练样本在后续受到更多关注。
  - 然后基于调整后的样本分布来训练下一个基学习器
  - 如此重复，训练T个基学习器，最终将这T个基学习器进行加权结合
- 经典代表
  - AdaBoost
    - 仅适用于二分类任务
- 实施方法
  - 重赋权法
    为每一个训练样本赋予权重
  - 重采样法
    根据样本分布对训练数据重采样，再用采样后的数据进行训练
- 偏差-方差分析
  - 降低偏差
Bagging与随机森林
- Bagging
  - Bagging工作机制
    - 通过采样出T个含有m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合
  - 结合方法
    - 对于分类任务
      - 简单投票法
    - 对于回归任务
      - 简单平均法
  - 自助采样法
    - 有放回的随机采样
    - 原始训练集中约有63.2%的样本出现在采样集中
    - 包外估计和包外样本
      - 使用剩下的36.8%的数据（包外样本）作为验证集对泛化性能进行包外估计
  - 偏差-方差分析
    - 降低方差
    - 在易受样本扰动的学习器（不剪枝决策树、神经网络）上效果更为明显
- 随机森林（Random Forest，RF）
  - 随机森林工作机制
    - 随机森林在以决策树为基学习器，构建Bagging集成的基础上，在决策树的训练过程中引入随机属性选择
    - 具体而言，在选择划分属性时，传统决策树是在当前节点的属性集合（假设含d个属性）中选择一个最优属性。而在RF中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含k个属性的子集，再从子集中选择一个最优属性用于划分
  - 与Bagging对比
    - Bagging
      - 样本扰动
    - 随机森林RF
      - 样本扰动
      - 属性扰动
  - 优点
    - 简单
    - 容易实现
    - 计算开销小，训练性能快。因为在选择划分属性时，只考察节点属性的子集（而不是所有属性）
    - 强大的性能，“集成学习代表”
结合策略
- 平均法（回归任务）
  - 简单平均法
    - 个体性学习器性能相近时适合使用
  - 加权平均法
    - 权重一般从训练数据中学习而得
    - 个体性学习器性能相差较大时适合使用
- 投票法（分类任务）
  - 绝对多数投票法
    - 得票过半，则预测该标记，否则拒绝预测
  - 相对多数投票法
    - 预测为得票最多的标记。若得票相同，则随机选一个
  - 加权投票法
- 学习法
  - 通过另一个学习器进行结合
  - 典型
    - Stacking
  - 学习器
    - 个体学习器称为初级学习器
    - 结合学习器称为次级学习器或元学习器