8-1 bagging & 随机森林

目前常见的集成(ensemble  )学习方法:bagging,RF(采用了bagging 思想),boosting(adaboosting, GBDT,XGB,LGBM)。

两者不同在于 bagging是集成多个强分类器,思路是最小化方差。个体学习器间不存在强依赖关系、可同时生成的并行化方法。

而boosting 是串行集成多个弱分类器,思路是最小化误差,下一个分类器需要依赖上一个的结果,多个若分类器间不能并行。

boosting 相关算法见https://mp.csdn.net/postedit

一、bagging

Bootstraping的名称来自成语“pull up by your ownbootstraps”,意思是依靠你自己的资源,称为自助
法,它是一种有放回的抽样方法(bootstrap aggregation 简称 bagging)

1.bagging 具体做法如下:

  • 从样本集中重采样(有重复的)选出n个样本
  • 在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)
  • 复以上两步m次,即获得了m个分类器
  • 将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类。

演示图:

2.采样率

在Bagging中,一个样本可能被多次采样,也可能一直不被采样,假设一个样本一直不出现在采样集的概率为(1-1/N) ** N,那么对其求极限可知,原始样本数据集中约有63.2%的样本出现在了,Bagging使用的数据集中,同时在采样中,我们还可以使用袋外样本(out of Bagging)来对我们模型的泛化精度进行评估.

3.实例

记原始数据为D,长度为N(即图中有N个离散点)

做100次bootstrap,每次得到的数据Di,Di的长度为N
 对于每一个Di,使用局部回归(LOESS)拟合一条曲线(图中灰色线是其中的10条曲线)
 将这些曲线取平均,即得到红色的最终拟合曲线
 显然,红色的曲线更加稳定,并且没有过拟合明显减弱

二、随机森林RF

1.具体做法:

随机森林在bagging基础上做了修改。
. 从样本集中用Bootstrap采样选出n个样本;
. 从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立CART决策树;
. 重复以上两步m次,即建立了m棵CART决策树
. 这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类。

随机森林可使用决策树作为基本分类器但也可以使用SVM、Logistic回归等其他分类器,习惯上,这些分类器组成的“总分类
器”,仍然叫做随机森林。

2.投票机制:

 简单投票机制

  • . 一票否决(一致表决)
  • . 少数服从多数
  • . 有效多数(加权)
  • . 阈值表决

 贝叶斯投票机制

贝叶斯投票机制基于每个基本分类器在过去的分类表现设定一个权值,然后按照这个权值进行投票。

举例一种投票方案:

投票计算电影得分

  WR:加权得分(weighted rating)
. R:该电影的用户投票的平均得分(Rating)
. C:所有电影的平均得分
. v:该电影的投票人数(votes)
. m:排名前250名的电影的最低投票数
. 根据总投票人数,250可能有所调整
. 按照v=0和m=0分别分析

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值