《机器学习》阅读笔记 Ch8 集成学习

最新推荐文章于 2024-09-09 11:06:22 发布

kindred_joe

最新推荐文章于 2024-09-09 11:06:22 发布

阅读量404

点赞数

CC 4.0 BY-SA版权

分类专栏：学习笔记

本文链接：https://blog.csdn.net/kindred_joe/article/details/101690030

学习笔记专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了集成学习的两大核心方法：boosting和bagging，分析了AdaBoost算法的计算核心，介绍了bagging的自助采样策略，以及随机森林如何通过属性随机选择提高效率和多样性。同时，文章还讲解了不同的结合策略，包括平均法、投票法和学习法，并讨论了多样性度量的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Ch8 集成学习

Taxonomy

在这里插入图片描述
根据个体学习器的差异，集成学习分为boosting和bagging。boosting中，个体学习器存在强依赖关系，必须串行序列化生成。bagging中，个体学习器不存在强依赖关系，可并行生成。

Boosting

AdaBoost的核心步骤就是计算基学习器权重和样本权重分布。
具体介绍可见《统计学习方法》阅读笔记 Ch8提升方法
Boosting算法要求基学习器能对特定分布的数据进行学习，即每次都更新样本分布权重，书上提到了两种方法：“重赋权法”（re-weighting）和“重采样法”（re-sampling）。
特别地，采用重赋权法方法，在训练boost的过程中由于损失过高，可能会提前停止训练。
对于一些无法接受带权样本的算法，适合用“重采样法”进行处理。方法大致过程是，根据各个样本的权重，对训练数据进行重采样，初始时样本权重一样，每个样本被采样到的概率一致，每次从N个原始的训练样本中按照权重有放回采样N个样本作为训练集，然后计算训练集错误率，然后调整权重，重复采样，集成多个基学习器。

Bagging

集成学习中的个体学习器需要具有两个条件，独立、有效。可使用互相有交叠的采样子集训练个体学习器。
Bagging使用“有放回”采样的自助采样（bootstrap sampling）方式选取训练集，对于包含m个样本的训练集，进行m次有放回的随机采样操作，从而得到m个样本的采样集，这样训练集中有接近36.8%的样本没有被采到。对并行训练的每个学习器按照相同的方式采样训练样本，就可以采集到T个包含m个样本的数据集，从而训练出T个基学习器，最终对这T个基学习器的输出进行结合。
在这里插入图片描述
bagging算法流程如下

对分类任务通常使用多数投票法，回归任务采用简单平均法。
可以看出Bagging主要通过样本的扰动来增加基学习器之间的多样性。AdaBoost关注于降低偏差，而Bagging关注于降低方差。

随机森林

随机森林（Random Forest）是Bagging的一个拓展体，它的基学习器固定为决策树，多棵树也就组成了森林。而“随机”在于选择划分属性的随机：随机森林在训练基学习器时，采用自助采样的方式添加样本扰动，同时还引入了一种属性扰动，即在基决策树的训练过程中，在选择划分属性时，RF先从候选属性集中随机挑选出一个包含K个属性的子集，再从这个子集中选择最优划分属性，一般推荐K=log2（d）。
随机的属性选择也提高了训练效率。

结合策略

结合策略就是集成学习训练的多个个体训练器如何组合。

平均法
包括简单平均和加权平均。

当w取1/T时就是简单平均。
由于各个基学习器的权值在训练中得出，一般而言，在个体学习器性能相差较大时宜使用加权平均法，在个体学习器性能相差较小时宜使用简单平均法。
投票法（分类）
包括绝对多数投票（类别占50%以上）、相对多数投票、加权投票。
投票中按照hx的输出（类别标签/类概率）又可分为硬投票和软投票。

在这里插入图片描述
一些在产生类别标记的同时也生成置信度的学习器，置信度可转化为类概率使用（如platt压缩、
等分回归方法将置信转为概率），一般基于类概率进行结合往往比基于类标记进行结合的效果更好。需要注意的是对于异质集成（个体学习器不同），其类概率不能直接进行比较，此时通常将类概率转化为类标记输出，然后再投票。

学习法
学习出一种“投票”的学习器。学习法结合策略的典型代表是stacking。投票的学习器成为次级学习器或元学习器。
首先训练出T个基学习器，对于一个样本它们会产生T个输出，将这T个基学习器的输出与该样本的真实标记作为新的训练样本，m个样本就会产生一个m*T的样本集，来训练一个新的“投票”学习器。
为了防止过拟合，采用k折交叉或者留一法采样，构造出训练集与测试集，训练集用来训练个体学习器，然后测试集输入个体学习器得到的输出作为元学习器的输入。
投票学习器的输入属性与学习算法对Stacking集成的泛化性能有很大的影响，书中已经提到：投票学习器采用类概率作为输入属性，选用多响应线性回归（MLR）一般会产生较好的效果。