随机森林中是怎么对数据进行随机选择的?
By Datawhale知乎内容输出小组D1
问题
法1:在随机森林中使用Bagging方法,比如有1000个样本,每一次采用Bootstrap采样(有放回),那么就是说每次选1000个(有重复),但是有的样本在采样中没有被选择过,就把它们当作out-of-bag来进行测试,是这样吗?
法2:还是在1000个样本中随机选择一些,比如500个,然后用剩下的500个进行测试?
解答
RF采用的是法1,有放回采样 - Bootstrap。每采集一个样本后,都将样本放回(之前采集到的样本在放回后有可能继续被采集到)。
【分析一下】:
对于一个样本,它在某一次含m个样本的训练集的随机采样中,每次被采集到的概率是 1 m {1 \over m} m1 ,不被采集到的概率为 1 − 1 m 1 - {1 \over m} 1−