R语言︱决策树族——随机森林算法

笔者寄语:有一篇《有监督学习选择深度学习还是随机森林或支持向量机?》(作者BioSebastianRaschka)中提到,在日常机器学习工作或学习中,当我们遇到有监督学习相关问题时,不妨考虑下先用简单的假设空间(简单模型集合),例如线性模型逻辑回归。若效果不好,也即并没达到你的预期或评判效果基准时,再进行下换其他更复杂模型来实验。


——————————————————————————————————————————————


一、随机森林理论介绍


1.1 优缺点


优点。

(1)不必担心过度拟合;

(2)适用于数据集中存在大量未知特征;

(3)能够估计哪个特征在分类中更重要;

(4)具有很好的抗噪声能力;

(5)算法容易理解;

(6)可以并行处理。

缺点。

(1)对小量数据集和低维数据集的分类不一定可以得到很好的效果。

(2)执行速度虽然比Boosting等快,但是比单个的决策树慢很多。

(3)可能会出现一些差异度非常小的树,淹没了一些正确的决策。


1.2 生成步骤介绍


1、从原始训练数据集中,应用bootstrap方法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类回归树,每次未被抽到的样本组成了K个袋外数据(out-of-bag,BBB)。

2、设有n 个特征,则在每一棵树的每个节点处随机抽取mtry 个特征,通过计算每个特征蕴含的信息量,特征中选择一个最具有分类能力的特征进行节点分裂。

3、每棵树最大限度地生长, 不做任何剪裁

4、将生成的多棵树组成随机森林, 用随机森林对新的数据进行分类, 分类结果按树分类器投票多少而定。


1.3 随机森林与SVM的比较


(1)不需要调节过多的参数,因为随机森林只需要调节树的数量,而且树的数量一般是越多越好,而其他机器学习算法,比如SVM,有非常多超参数需要调整,如选择最合适的核函数,正则惩罚等。

(2)分类较为简单、直接。随机深林和支持向量机都是非参数模型(复杂度随着训练模型样本的增加而增大)。相较于一般线性模型,就计算消耗来看,训练非参数模型因此更为耗时耗力。分类树越多,需要更耗时来构建随机森林模型。同样,我们训练出来的支持向量机有很多支持向量,最坏情况为,我们训练集有多少实例,就有多少支持向量。虽然,我们可以使用多类支持向量机,但传统多类分类问题的执行一般是one-vs-all(所谓one-vs-all 就是将binary分类的方法应用到多类分类中。比如我想分成K类,那么就将其中一类作为positive),因此我们还是需要为每个类训练一个支持向量机。相反,决策树与随机深林则可以毫无压力解决多类问题。

(3)比较容易入手实践。随机森林在训练模型上要更为简单。你很容易可以得到一个又好且具鲁棒性的模型。随机森林模型的复杂度与训练样本和树成正比。支持向量机则需要我们在调参方面做些工作,除此之外,计算成本会随着类增加呈线性增长。

(4)小数据上,SVM优异,而随机森林对数据需求较大。就经验来说,我更愿意认为支持向量机在存在较少极值的小数据集上具有优势。随机森林则需要更多数据但一般可以得到非常好的且具有鲁棒性的模型。



1.5 随机森林与深度学习的比较


深度学习需要比随机森林更大的模型来拟合模型,往往,深度学习算法需要耗时更大,相比于诸如随机森林和支持向量机那样的现成分类器,安装配置好一个神经网络模型来使用深度学习算法的过程则更为乏味。

但不可否认,深度学习在更为复杂问题上,如图片分类,自然语言处理,语音识别方面更具优势。

另外一个优势为你不需要太关注特征工程相关工作。实际上,至于如何选择分类器取决于你的数据量和问题的一般复杂性(和你要求的效果)。这也是你作为机器学习从业者逐步会获得的经验。

可参考论文《An Empirical Comparison of Supervised Learning Algorithms》。



1.6 随机森林与决策树之间的区别


模型克服了单棵决策树易过拟合的缺点,模型效果在准确性和稳定性方面都有显著提升。


决策树+bagging=随机森林




1.7 随机森林不会发生过拟合的原因


在建立每一棵决策树的过程中,有两点需要注意-采样与完全分裂。首先是两个随机采样的过程,random forest对输入的数据要进行行、列的采样。对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。

假设输入样本为N个,那么采样的样本也为N个。这样使得在训练的时候,每一棵树的输入样本都不是全部的样本,使得相对不容易出现over-fitting


然后进行列采样,从Mfeature中,选择m(m << M)。之后就是对采样之后的数据使用完全分裂的方式建立出决策树,这样决策树的某一个叶子节点要么是无法继续分裂的,要么里面的所有样本的都是指向的同一个分类。一般很多的决策树算法都一个重要的步骤-剪枝,但是这里不这样干,由于之前的两个随机采样的过程保证了随机性,所以就算不剪枝,也不会出现over-fitting 按这种算法得到的随机森林中的每一棵都是很弱的,但是大家组合起来就很厉害了。


可以这样比喻随机森林算法:每一棵决策树就是一个精通于某一个窄领域的专家(因为我们从Mfeature中选择m让每一棵决策树进行学习),这样在随机森林中就有了很多个精通不同领域的专家,对一个新的问题(新的输入数据),可以用不同的角度去看待它,最终由各个专家,投票得到结果。



1.8 随机森林与梯度提升树(GBDT)区别


随机森林:决策树+bagging=随机森林

梯度提升树:决策树Boosting=GBDT


两者区别在于bagging boosting之间的区别,可见:

 

 

bagging

boosting

取样方式

bagging采用均匀取样

boosting根据错误率来采样

精度、准确性

相比之,较低

训练集选择

随机的,各轮训练集之前互相独立

各轮训练集的选择与前面各轮的学习结果相关

预测函数权重

各个预测函数没有权重

boost有权重

函数生成顺序

并行生成

顺序生成

应用

象神经网络这样极为消耗时间的算法,bagging可通过并行节省大量的时间开销

bagingboosting都可以有效地提高分类的准确性

bagingboosting都可以有效地提高分类的准确性

一些模型中会造成模型的退化(过拟合)

boosting思想的一种改进型adaboost方法在邮件过滤,文本分类中有很好的性能

 

随机森林

梯度提升树

 



——————————————————————————————————————————————


二、随机森林重要性度量指标——重要性评分、Gini指数


<a target=_blank name="t9" style="box-sizing: border-box; background: transparent; color: rgb(79, 161, 219);

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值