集成学习

最新推荐文章于 2024-06-18 12:12:06 发布

白亿星星

最新推荐文章于 2024-06-18 12:12:06 发布

阅读量221

点赞数

分类专栏：数据挖掘与机器学习

本文链接：https://blog.csdn.net/qq_43742590/article/details/116245889

版权

数据挖掘与机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

一、几个重要结论：

1.基学习器的误差相互独立的情况下，随着集成中个体分类器数目T的增大，集成的错误率将指数级下降，最终趋向于零。
2.集成学习目前分为串行序列化方法和并行化方法。
3.结合策略分为平均法（简单平均法、加权平均法）、投票法（绝对多数投票法、相对多数投票法、加权投票法）、学习法（以Stacking为代表）。通常来讲，对规模较大的集成来说，要学习的权重比较多，较容易导致过拟合，在个体学习器性能相差较大时宜使用加权方法，而在个体学习器性能相近时宜采用简单方法。
Stacking算法：在这里插入图片描述
有研究表明，将初始学习器的输出类概率作为次级学习器的输入属性，用** 多响应线性回归**(MLR) 作为次级学习算法效果较好。

4.类标记，又称硬标签，取值为0或1；类概率，又称软标记，取值为对后验概率的一个估计。
5.由误差——分歧分解可知，个体学习器准确性越高、多样性越大，则集成越好，推导如下：
在这里插入图片描述

6.多样性增强方法：数据样本扰动、输入属性扰动（随机子空间算法：从初始属性集中抽取出若干个属性子集，再基于每个属性子集训练一个基学习器）、输出表示扰动、算法参数扰动

二、串行序列化方法——Boosting

在这里插入图片描述

算法证明详见《机器学习（周志华）》

三、并行序列化方法——Bagging、Random Forest

1.基本思想：采用自举重采样的方法采样出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合。随机森林是Bagging的一个特例，具体介绍见“决策树”博文。与标准的AdaBoost算法只适用于二分类任务不同（不过现在已经有变体可以用于多分类和回归任务），Bagging能不经修改地用于多分类和回归任务。
2.从偏差——方差分解的角度看，Bagging主要关注降低方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。
3.随机森林的训练效率常优于Bagging,因为在个体决策树构建过程中，Bagging使用的是“确定型”决策树，而随机森林使用的是“随机型”决策树。