随机森林中是怎么对数据进行随机选择的?

随机森林中是怎么对数据进行随机选择的?

By Datawhale知乎内容输出小组D1

问题

法1:在随机森林中使用Bagging方法,比如有1000个样本,每一次采用Bootstrap采样(有放回),那么就是说每次选1000个(有重复),但是有的样本在采样中没有被选择过,就把它们当作out-of-bag来进行测试,是这样吗?

法2:还是在1000个样本中随机选择一些,比如500个,然后用剩下的500个进行测试?

解答

RF采用的是法1,有放回采样 - Bootstrap。每采集一个样本后,都将样本放回(之前采集到的样本在放回后有可能继续被采集到)。

【分析一下】:
对于一个样本,它在某一次含m个样本的训练集的随机采样中,每次被采集到的概率是 1 m {1 \over m} m1 ,不被采集到的概率为 1 − 1 m 1 - {1 \over m} 1

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值