随机森林(袋外OOB数据)

本文介绍了如何在数据抽样时采用有放回的方式,导致约30%的数据未被采样。这部分未被采样的数据被称为袋外数据(Out-of-Bag, OOB)。对于决策树等弱学习器,OOB数据可用于验证模型性能,通过计算预测错误率来评估整体学习器的准确性。袋外数据也可作为额外的训练集,替代传统交叉验证。OOB错误率越高,模型性能越差。利用OOB数据进行模型验证和训练集优化,能有效提升模型的泛化能力。
摘要由CSDN通过智能技术生成

1.在数据抽样的时候,因为是有放回的采样,有很多条样本没有被选到,经过以下计算,

没条样本大概有百分之三十的概率是没有被采样的。

2.对于这些没有被采样到的数据(oob),我们希望能够得到利用当作验证集

当然对于单颗决策树没有必要用oob数据验证,我们可以用oob数据验证强学习器(评估)。

做法:假如在随机采样过程中第n条样本没有被g2,g3,g4采样到,我们就可以用第n条样本对整个强学习器做预测,然后得到第n条样本真实值与预测值的错误率。

那么我们就可以得到整体的强学习器对袋外数据的错误率,这个错误率就可以当成训练集验证集评估的指标,错误率越高越不好。

错误率计算公式

当然这个oob数据也可以当成训练集数据进行训练。所以有了oob袋外数据就不需要交叉验证(切分训练集)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值