集成学习理解


概念:先构建一组分类器/学习器,再将分类器/学习器的预测结果进行结合,通过各种方式做出最终的决策。
集合方法可分为两类:
(1)序列集成方法,其中参与训练的基础学习器按照顺序生成(例如 AdaBoost)。序列方法的原理是利用基础学习器之间的 依赖关系。通过对之前训练中错误标记的样本赋值较高的权重,可以提高整体的预测效果。
(2)并行集成方法,其中参与训练的基础学习器并行生成(例如 Random Forest)。并行方法的原理是利用基础学习器之间 不存在强依赖关系有独立性,通过平均可以显著降低错误[1]。

一、Boosting(AdaBoost减小偏差)

思想:从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;
关于AdaBoost算法:他是Boosting族算法中最著名的代表。刚开始训练时对每个训练例赋相同的权重,然后用该算法对训练集训练T轮,每次训练后,对训练失败的训练例赋更大的权重,也就是让学习算法在每次学习以后更注意学错的样本,从而得到多个预测函数/基分类器。通过拟合残差的方式逐步减小残差,将每一步生成的模型叠加得到最终模型【1】。
在这里插入图片描述

二、bagging 与 random Forest

1.bagging(减小方差)

bootstraping:有放回采样
bagging:通过有放回的采样在有 m m m个样本的数据集中采 m m m次,得到有 m m m个样本的采样集,其中可能有重复的样本,通过这种方式我们可以构造 T T T个采样集,然后利用T个采样集产生 T T T个基学习器,再将这 T T T个基学习器结合,得到bagging。算法流程如下图:
在这里插入图片描述

2.随机森林RF

RF是Bagging的一个扩展变体。是将Bagging决策树相结合,多个基学习器对应为多个决策树。
特点:样本选择特征选择 都是随机选的。
样本选择随机是指每次都随机选择一个比例,以这个比例从全部样本中来抽取样本,假如有10个样本,生成一棵树时,随机选择比例为0.6,则通过有放回的方式抽取6个样本。
特征选择随机是指样本有多种特征,我们随机的选择特征来构建决策树。

三、结合策略

有三种: 平 均 法 , 投 票 法 和 学 习 法 \color{#FF3030}{平均法,投票法和学习法}

平均法

(1)简单平均法: H ( x ) = 1 T ∑ i = 1 T h i ( x ) H(x)=\frac{1}{T}\sum_{i=1}^Th_i(x) H(x)=T1i=1Thi(x)
(2)加权平均法: H ( x ) = ∑ i = 1 T w i h i ( x ) H(x)=\sum_{i=1}^Tw_ih_i(x) H(x)=i=1Twihi(x)
权重 w i w_i wi为非负权重,且和为1。
基学习器差异大时,使用加权平均法;差异小时,使用简单平均法。

投票法

(1)绝对多数投票法
在这里插入图片描述
若某标记得票过半数,则预测为该标记;否则拒绝预测。
(2)相对多数投票法
在这里插入图片描述

预测为得票最多的标记,若同时有多个标记获最高票,则从中随机选取一个。
(3)加权投票法
在这里插入图片描述
加权取各基学习器的预测结果,得到最终的预测结果。
(4)软投票与硬投票
硬投票规则:少数服从多数
在这里插入图片描述
硬投票有时是不合理的,引入软投票:(软投票要求集合的每个模型都能估计概率)
在这里插入图片描述
举一些能够估计概率的模型(可用软投票):
在这里插入图片描述

学习法(Stacking)

用另一个学习器来结合多个基学习器。这里我们把基学习器称作初级学习器,把用于结合的学习器称为次级学习器或元学习器。我们将训练样本分为两部分,一部分用来训练初级学习器,初级学习器的预测结果和另一部分训练样本一起训练次级学习器,由此得到最终结果。
由于参数很多,所以存在过拟合问题。sklearn里面没有这种函数。

四、参考文献

【1】机器学习-集成学习
【2】周志华《机器学习》

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值