集成学习

一、几个重要结论:

1.基学习器的误差相互独立的情况下,随着集成中个体分类器数目T的增大,集成的错误率将指数级下降,最终趋向于零。
2.集成学习目前分为串行序列化方法和并行化方法。
3.结合策略分为平均法(简单平均法、加权平均法)、投票法(绝对多数投票法、相对多数投票法、加权投票法)、学习法(以Stacking为代表)。通常来讲,对规模较大的集成来说,要学习的权重比较多,较容易导致过拟合,在个体学习器性能相差较大时宜使用加权方法,而在个体学习器性能相近时宜采用简单方法。
Stacking算法:在这里插入图片描述
有研究表明,将初始学习器的输出类概率作为次级学习器的输入属性,用** 多响应线性回归**(MLR) 作为次级学习算法效果较好。

4.类标记,又称硬标签,取值为0或1;类概率,又称软标记,取值为对后验概率的一个估计。
5.由误差——分歧分解可知,个体学习器准确性越高、多样性越大,则集成越好,推导如下:
在这里插入图片描述
在这里插入图片描述
6.多样性增强方法:数据样本扰动、输入属性扰动(随机子空间算法:从初始属性集中抽取出若干个属性子集,再基于每个属性子集训练一个基学习器)、输出表示扰动、算法参数扰动

二、串行序列化方法——Boosting

在这里插入图片描述
在这里插入图片描述
算法证明详见《机器学习(周志华)》

三、并行序列化方法——Bagging、Random Forest

1.基本思想:采用自举重采样的方法采样出T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。随机森林是Bagging的一个特例,具体介绍见“决策树”博文。与标准的AdaBoost算法只适用于二分类任务不同(不过现在已经有变体可以用于多分类和回归任务),Bagging能不经修改地用于多分类和回归任务。
2.从偏差——方差分解的角度看,Bagging主要关注降低方差,因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。
3.随机森林的训练效率常优于Bagging,因为在个体决策树构建过程中,Bagging使用的是“确定型”决策树,而随机森林使用的是“随机型”决策树。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值