RF详解以及常见面试题

随机森林RF是一种抗过拟合能力强的模型,通过数据集随机抽样和节点特征随机选择增加多样性。RF相比SVM,具有较少的参数调整需求和良好的并行性。在面试中,RF常与SVM比较,其优势在于容易构建鲁棒模型,并能通过 Bagging 策略降低过拟合风险。与GBDT的区别在于RF采用bagging,而GBDT使用boosting。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RF

之前说过了决策树,试想一下如果有很多千姿百态的决策树组成了一个森林,那么以每个树的预测结果投票得到最后的模型输出的话,是不是能得到一个更加鲁棒,抗过拟合能力比较好的模型了。
回顾一下决策树生成的过程,重复对一个数据集生成决策树的话,树形是确定的,也就是说每次生成的树是一样的,这样的话就达不到生成千姿百态的决策树再组成森林的目的了;同样的决策树组成森林结果是不变的,所以这个时候就需要增加一点随机性来干扰树的生成过程。

数据集随机

RF可以认为是bagging+决策树的产物,对于森林中的每颗决策树,用来训练的数据集是不同的,每次按照有放回的采样方法得到一个和原始数据等大的数据集(这里又出现了一个神奇的数字,36.8%也就是1/e的数据不会被选取到),未被选取的数据可以作为验证集对泛化性能做包外估计(oob)。

节点特征随机

随机森林的随机操作还没有完,除了每棵树用的数据集不同,其生长过程也是充满了随机和意外,这也是RF泛化误差低于单纯的bagging+决策树的原因,正常的决策树分裂节点时是从所有的属性中寻找基尼系数最好的;而RF就充满以外了,它会从节点属性中先随机选出d个属性,再从这里面选择基尼系数最好的,这种思想也符合集成学习让基学习器不同的理念。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值