提升方法（集成学习）

最新推荐文章于 2024-01-04 00:03:47 发布

CangHaier

最新推荐文章于 2024-01-04 00:03:47 发布

阅读量467

点赞数

分类专栏：机器学习文章标签：提升方法

本文链接：https://blog.csdn.net/CangHaier/article/details/80628442

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

集成学习总结：
思想：由多个分类器组合成一个性能更好的分类器。每个分类器应该好而不同，即本身准确率要足够高，并且之间要有多样性。
集成学习研究的核心：如何产生好而不同的分类器？既满足准确性又满足多样性
分类：
1）序列化方法：个体之间存在强依赖关系，必须串行生成。boosting，是利用不同模型的相加，构成一个更好的模型，求取模型一般都采用序列化方法，后面的模型依据前面的模型。
boosting——学习机制：
先学习一个基学习器，然后根据学习器的表现对训练样本的分布进行调整，使先前分类错误的样本在后续受到更多的关注
重复，直到产生预先设定的基学习器个数，最终将这些学习器进行加权组合
改变权重的方式：
1）重赋权法
2）重采样法
代表：
Adboost
提升树，用树做基学习器——用残差不断拟合出新的树，加到树上
梯度提升树，与提升树的区别在于，残差的计算不同，普通的提升树的残差是真正的差，梯度提升树用当前模型的负梯度来拟合残差
2）并行化方法：不存在依赖关系，可同时生成。bagging，是对训练样本随机抽样，训练处不同的模型，然后组合。
自助采样法（训练集中有放回的随机抽取m个样本）
构建T个采样集，训练T个分类器，然后结合（分类任务简单的投票，回归任务采用平均法）
代表：RF 随机森林
随机森林，相对于普通的bagging，引入了随机属性，在每个节点选择属性时，引入随机性（先在所有属性中，选择k个属性，在这些属性中选最优）