随即森林与Adaboost自我认知总结

随机森林与Adaboost

一:随机森林

1.1:随即森林思想

随机森林是bagging思想下的一个算法。Bagging的思想很简单,从原来的数据集中随机抽取出数据,同时保持数据集的规模不变。用新的数据集训练弱学习器。重复多次,得到强分类器。在回归问题中,通过取平均值的方汇总所有基学习器的结果,在分类问题中,通常使用投票法汇总。

一棵树是决策树,多棵树是随即森林。一棵树有一个决策,多棵树有多个决策权,把所有树的决策综合在一起,肯定比单个树决策要强很多,解决了单棵决策树泛化能力弱的缺点。

1.2 随机森林的两个随机

随即森林的随机体现在两个方面,一个是随机选择样本,一个是随机选择特征。

  • 随机样本选择就是从M个训练样本中有放回地随机抽取M个样本作为训练集

    • 未抽取样本的概率为36.8% ;被抽取样本的概率为63.2%(每次抽取的概率相等为1/m,可能重复抽取。我们做一个简单的估计,样本m次采样中始终不被采样的概率为 ( 1-(1/m)^m)
      在这里插入图片描述
  • 随机选择特征就是从候选的特征中随机抽取k个特征。

    有了这2个随机因素,即使每棵决策树没有进行剪枝,随机森林也不会产生过拟合的现象。

1.3:随机森林的步骤
  • 首先,每次从原来的N个训练样本中有放回地随机抽取N个样本。构成M个样本集。
  • 然后,用每个样本集作为训练样本构造决策树。对每个样本集,从候选的特征中随机抽取k个特征,构建决策树。单个决策树在产生样本集和确定特征后,为了增强基分类器之间的差异性,不剪枝。
  • 最后,将得到多个决策树集成构成随机森林。如果是分类问题那么对这些树的输出进行投票,以得票最多的类作为随机森林的决策。如果是回归问题就采用平均值的方法进行决策。
1.4 随机森林的优点
  • (1)学习过程快速

  • (2)分类结果更加准确

  • (3)可以处理高维度的属性,并且不用做特征选择

1.5 随机森林的缺点
  • 1.当随机森林中的决策树个数很多的时候,训练时需要的时间和空间都很大
  • 2.随机森林还有许多不好解释的地方,类似黑盒模型。

小问题:

随机森林为什么进行随机抽样?

  • 如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样的,这样的话完全没有bagging的必要。

随机森林为什么有放回的抽取?

  • 如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集,而随机森林最后分类取
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

忘川之水&

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值