随机森林为何要有放回抽样
随机森林为什么要用有放回的随机采样。
好了,回到正题吧,随机森林是可以降低模型的方差,这里借鉴了下其它同学的回答,记录一下。
1. 如果不放回抽样,那么每棵树用的样本完全不同,基学习器之间的相似性小,投票结果差,模型偏差大;
2. 如果不抽样,那么基学习器用所有样本训练,基学习器太相似差异性太小,模型的泛化性就很差;
3. 为什么不随机抽样?这里自助采样可以产生一部分袋外样本,可以用来做袋外估计;另外自助采样一定程度上改变了每个基学习器所用数据的样本分布,一定程度上引入了噪音,增加了模型的泛化能力。
原文:https://www.cnblogs.com/MaiYatang/p/12094856.html