集成学习3——随机森林(RF)与 bagging

随机森林大家都不会陌生,相对于XGB来讲,方法很简单,没有那么多复杂的公式,其主要是一种思想——bagging,关于抽样、统计的。随机森林也是决策树家族的一员,了解随机森林也得从决策树开始,感兴趣的可以参考这篇文章 决策树——ID3/C4.5/CART算法 以及 集成学习1——XGBoost


1,概述

为什么要出现RF算法?当然是因为决策树算法有很多缺点和不足:

决策树算法的缺点:
1)贪婪算法,陷入局部最优。
2)树过深,容易过拟合。不能平衡方差与偏差,树复杂了偏差小,但是方差大(数据对模型的影响),树简单了方差小,但是偏差大。
3)不够稳定,数据出现微小变化树就会改变,受到高方差的困扰。
4)不太适合处理大规模数据

不管决策树如何优化和调试,其模型本身过于简单,必然会带来诸多缺点,比如抗干扰能力、泛化能力等。从一般的模型角度分析,一个模型误差可以分解为偏差、方差和噪音,偏差是指模型期望值与真实数据之间的差异,刻画了模型本身的拟合性能,方差是指模型结果与模型期望结果之间的差异,是相同大小的训练集对模型学习性能的影响,体现了数据扰动的影响,偏差和方差直接影响了模型的性能,所以在不改变决策树基本模型的基础上有两个主要方向,一个是减小偏差为主(XGBoost),一个是减小方差为主(RF)。

2,RF的基本思想

2.1 bagging思想

Bagging(bootstrap aggregating)是bootstrap 与aggregating两者的简称,aggregating我们知道是一种集成思想,将多个弱分类器集合起来组成一个强分类器,那么各个弱分类器之间如何训练呢?这里就用到了bootstrap 思想:
Bootstrap 是一种统计学上的估计方法,对观测数据进行再抽样,进而实现对总体数据的分布特性进行推断。因为我们一般获取不到整体样本,单独用观测样本,对于整体数据分布来说并不准确,所以获取相应的参数,均值、方差、中位数等等时,会有误差,通过这种方式会相对准确。

Bootstrap实现步骤:
1)在原有的样本中通过有放回的抽样,抽取一定数量的样本。
2)基于抽到的样本,我们获取相应的参数,比如 α \alpha α
3)重复上述步骤n次,一般大于1000次,获取n个 α \alpha α
4)最后我们可以计算被估计量的均值,方差等,作为样本的统计量。

简单来说就是:我们获取到的数据是不完全的,是整体数据的一部分,如何可以近似得到整体数据评估的参数,用的就是多次有放回的抽样思想。比如我们有N个样本,我们有放回的抽样N次,得到N个样本,评估一次参数 α \alpha α,重复这样的操作1000次,然后取平均,得到的近似结果 α ^ \hat{\alpha} α^

那么应用在随机森林算法中也很明显了,每建立一棵决策树,就通过Bootstrap方法抽取样本建模,多次建模后采用aggregating。

2.2 两个要点

RF有两个关注点:
1)在训练时,随机森林每次有放回的随机选取一部分学习样本,bootstrap,尽管每棵树都有较高的方差,但是整体而言数据的方差较小,同时偏差不会增加,这也是bootstrap的统计学意义,近似得到准确的数据分布。在测试时平均每个预测器的预测值,这种方法,称为bagging(bootstrap aggregating)
Bagging(bootstrap aggregating)可以减小统计学方差。通过多次有放回的随机采样,可以近似得出数据的分布,包括均值、方差等。Bagging方法从另一个角度有点像交叉验证,一部分训练另一部分(out of bagging,OOB)测试,所以bagging方法自身就能计算测试误差。
2)在节点分裂的时候,选取样本的部分特征计算分裂标准(列采样),一般设置为sqrt(x)个,从泛化能力上讲,这是一种防止过拟合的手段,减小方差(数据对模型的影响)。

所以,随机森林的特点,泛化能力较强,不容易过拟合

关于RF与XGBoost的对比,可以参考这两篇文章:

集成学习1——XGBoost
集成学习2——XGBoost本身的特点,及XGB与GBDT、LGB、RF的区别于联系

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值