随机森林oob_score及oob判断特征重要性

本文介绍了随机森林中的oob_score概念及其用于评估模型性能和选择重要特征的方法。通过袋外样本,可以检测模型的泛化能力和特征的重要性。oob_score是随机森林的决定系数,通过计算所有决策树的oob_scores平均值得到。特征选择则是通过观察特征值变化对oob误差的影响来评估重要性。相比于PCA和LDA,随机森林更注重特征对类别的影响,但计算成本较高。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

       目录

1. oob

2. oob_score

3. oob选择重要特征

4.与其它方法对比


        Sklearn RandomForest算法(有监督学习),可以根据输入数据,选择最佳特征,减少特征冗余;同理,可以通过特征的排列组合,选择最优的组合特征,优化下游算法性能

        原理:由于随机决策树生成过程采用的Boostrap,所以在一棵树的生成过程并不会使用所有的样本,未使用的样本就叫(out_of_bag)oob袋外样本。通过袋外样本,可以评估这个树的准确度;此外,其他子树按这个原理评估。最后,取平均值即是随机森林算法的性能。

        特征选择原理:因为袋外样本的存在,因此不需要进行十字交叉测试(节省时间),通过依次对每个特征赋予一个随机数,观察算法性能的变化,倘若变化大,则说明该特征重要,sklearn中会对每个特征赋予一个分数,分数越大,特征越重要,因此,可以根据特征重要性排序,然后选择最佳特征组合。

       在学习随机森林算法参数解释以及参数择优的过程中,注意到oob_score这一参数对应是否采用袋外样本来评估模型的好坏。

1. oob

        袋外样本oob (Out of bag):在随机森林中,n个训练样本会通过bootstrap (有放回的随机抽样) 的抽样方式进行T次抽样每次抽样产生样本数为n的采样集,进入到并行的T个决策树中。

        有放回的抽样方式会导致有部分训练集中的样本(约36.8%)未进入决策树的采样集中,而这

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值