随机森林oob_score及oob判断特征重要性

最新推荐文章于 2025-01-19 00:15:46 发布

*Snowgrass*

最新推荐文章于 2025-01-19 00:15:46 发布

阅读量8k

点赞数

分类专栏：机器学习文章标签：随机森林 RDF OOB 特征选择 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36535820/article/details/119797794

版权

本文介绍了随机森林中的oob_score概念及其用于评估模型性能和选择重要特征的方法。通过袋外样本，可以检测模型的泛化能力和特征的重要性。oob_score是随机森林的决定系数，通过计算所有决策树的oob_scores平均值得到。特征选择则是通过观察特征值变化对oob误差的影响来评估重要性。相比于PCA和LDA，随机森林更注重特征对类别的影响，但计算成本较高。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

3. oob选择重要特征

4.与其它方法对比

Sklearn RandomForest算法（有监督学习），可以根据输入数据，选择最佳特征，减少特征冗余；同理，可以通过特征的排列组合，选择最优的组合特征，优化下游算法性能

原理：由于随机决策树生成过程采用的Boostrap，所以在一棵树的生成过程并不会使用所有的样本，未使用的样本就叫（out_of_bag）oob袋外样本。通过袋外样本，可以评估这个树的准确度；此外，其他子树按这个原理评估。最后，取平均值即是随机森林算法的性能。

特征选择原理：因为袋外样本的存在，因此不需要进行十字交叉测试（节省时间），通过依次对每个特征赋予一个随机数，观察算法性能的变化，倘若变化大，则说明该特征重要，sklearn中会对每个特征赋予一个分数，分数越大，特征越重要，因此，可以根据特征重要性排序，然后选择最佳特征组合。

在学习随机森林算法参数解释以及参数择优的过程中，注意到oob_score这一参数对应是否采用袋外样本来评估模型的好坏。

1. oob

袋外样本oob (Out of bag)：在随机森林中，n个训练样本会通过bootstrap (有放回的随机抽样) 的抽样方式进行T次抽样每次抽样产生样本数为n的采样集，进入到并行的T个决策树中。

有放回的抽样方式会导致有部分训练集中的样本(约36.8%)未进入决策树的采样集中，而这

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。