随机森林的原理和用随机森林的方式进行特征选择

Bagging的策略:
假定给定了N个样本,现在让我们去做决策树,分类器使用ID3,那么现在样本确定了,分类器确定了,这个决策树就是已经确定的。那么如果我们保证每次的数据不一样,就可以生成不同的决策树。那我们如何保证每次的样本数据不一样呢?最直接最有效的方法:首先我们有N个样本,我们给定一个从1-N的随机数,每次随机有放回的随机取一个随机数(也就是说可以重复)并且取N次,我们就得到了一个N个样本的随机数,标位DT1。我们重复前面随机取样的步骤,得到M颗决策树,这样就形成了一个森林。
问题:那么如果给定N个样本,现在有放回的生成N个新样本的时候,可能有一个样本一次都没有被选中过,也可能有一个样本被选中多次。那么被选中过的样本站总样本的多少呢?
假设每个样本每次被选中的概率都是1/N,那么每次没有被选中的概率就是1-1/N,从而得到,N次都没有被选中的概率就是(1-1/N)N。当N足够大的时候,就是1-1/e,大概是63.2%是独一无二能够进入分类器的,那么百分之36.8%没有参与到决策树的生成。
那么我们把参与到决策树生成的样本叫做bag,剩余的样本我们叫做out of bag(OOB),用OOB来测试决策树的好坏。所以理论上来说,我们都没有必要把样本数据分为训练集和测试集。
其实我们也大可不必把随机生成的新决策树样本数量等于N,可以调整采样率α,把α*N放到新的决策树中。所以新样本的规模没有必要和原始数据一样。
现在假设一共有m个样本,n个特征,我们在去选择某一个特征的时候,把1-n都试一遍,看看哪一个特

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值