《机器学习》 阅读笔记 Ch8 集成学习

Ch8 集成学习

目录


  • Taxonomy
  • Boosting
  • Bagging
  • 随机森林
  • 结合策略
  • 多样性

Taxonomy


在这里插入图片描述
根据个体学习器的差异,集成学习分为boosting和bagging。boosting中,个体学习器存在强依赖关系,必须串行序列化生成。bagging中,个体学习器不存在强依赖关系,可并行生成。

Boosting


AdaBoost的核心步骤就是计算基学习器权重和样本权重分布。
具体介绍可见《统计学习方法》阅读笔记 Ch8提升方法
Boosting算法要求基学习器能对特定分布的数据进行学习,即每次都更新样本分布权重,书上提到了两种方法:“重赋权法”(re-weighting)和“重采样法”(re-sampling)。
特别地,采用重赋权法方法,在训练boost的过程中由于损失过高,可能会提前停止训练。
对于一些无法接受带权样本的算法,适合用“重采样法”进行处理。方法大致过程是,根据各个样本的权重,对训练数据进行重采样,初始时样本权重一样,每个样本被采样到的概率一致,每次从N个原始的训练样本中按照权重有放回采样N个样本作为训练集,然后计算训练集错误率,然后调整权重,重复采样,集成多个基学习器。

Bagging


集成学习中的个体学习器需要具有两个条件,独立、有效。可使用互相有交叠的采样子集训练个体学习器。
Bagging使用“有放回”采样的自助采样(bootstrap sampling)方式选取训练集,对于包含m个样本的训练集,进行m次有放回的随机采样操作,从而得到m个样本的采样集,这样训练集中有接近36.8%的样本没有被采到。对并行训练的每个学习器按照相同的方式采样训练样本,就可以采集到T个包含m个样本的数据集,从而训练出T个基学习器,最终对这T个基学习器的输出进行结合。
在这里插入图片描述
bagging算法流程如下
在这里插入图片描述
对分类任务通常使用多数投票法,回归任务采用简单平均法。
可以看出Bagging主要通过样本的扰动来增加基学习器之间的多样性。AdaBoost关注于降低偏差,而Bagging关注于降低方差。

随机森林


随机森林(Random Forest)是Bagging的一个拓展体,它的基学习器固定为决策树,多棵树也就组成了森林。而“随机”在于选择划分属性的随机:随机森林在训练基学习器时,采用自助采样的方式添加样本扰动,同时还引入了一种属性扰动,即在基决策树的训练过程中,在选择划分属性时,RF先从候选属性集中随机挑选出一个包含K个属性的子集,再从这个子集中选择最优划分属性,一般推荐K=log2(d)。
随机的属性选择也提高了训练效率。

结合策略


结合策略就是集成学习训练的多个个体训练器如何组合。

  • 平均法
    包括简单平均和加权平均。
    在这里插入图片描述
    当w取1/T时就是简单平均。
    由于各个基学习器的权值在训练中得出,一般而言,在个体学习器性能相差较大时宜使用加权平均法,在个体学习器性能相差较小时宜使用简单平均法。
  • 投票法(分类)
    包括绝对多数投票(类别占50%以上)、相对多数投票、加权投票。
    投票中按照hx的输出(类别标签/类概率)又可分为硬投票和软投票。

在这里插入图片描述
一些在产生类别标记的同时也生成置信度的学习器,置信度可转化为类概率使用(如platt压缩、
等分回归方法将置信转为概率),一般基于类概率进行结合往往比基于类标记进行结合的效果更好。需要注意的是对于异质集成(个体学习器不同),其类概率不能直接进行比较,此时通常将类概率转化为类标记输出,然后再投票。

  • 学习法
    学习出一种“投票”的学习器。学习法结合策略的典型代表是stacking。投票的学习器成为次级学习器或元学习器。
    首先训练出T个基学习器,对于一个样本它们会产生T个输出,将这T个基学习器的输出与该样本的真实标记作为新的训练样本,m个样本就会产生一个m*T的样本集,来训练一个新的“投票”学习器。
    为了防止过拟合,采用k折交叉或者留一法采样,构造出训练集与测试集,训练集用来训练个体学习器,然后测试集输入个体学习器得到的输出作为元学习器的输入。
    投票学习器的输入属性与学习算法对Stacking集成的泛化性能有很大的影响,书中已经提到:投票学习器采用类概率作为输入属性,选用多响应线性回归(MLR)一般会产生较好的效果。

多样性


在集成学习中,基学习器之间的多样性是影响集成器泛化性能的重要因素。
多样性度量指标包括:不合度量、相关系数、Q-统计量、k-统计量。
多样性增强:一般的思路是在学习过程中引入随机性,常见的做法主要是对数据样本、输入属性、输出表示、算法参数进行扰动。

欢迎关注我的个人公众号,记录学习历程
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值