Notes—Random Forest-feature importance随机森林对特征排序

最新推荐文章于 2024-06-24 09:58:32 发布

code_caq

最新推荐文章于 2024-06-24 09:58:32 发布

阅读量1.6w

点赞数 2

分类专栏： Notes

本文链接：https://blog.csdn.net/code_caq/article/details/74066899

版权

本文介绍了随机森林中评估特征重要性的两种方法：Mean Decrease Impurity（MDI）和Mean Decrease Accuracy（MDA）。MDI通过计算每个特征对袋外数据误差的影响来衡量重要性，而MDA则是通过扰动特征值观察对预测准确性的影响。在sklearn中，MDI得到实现，而MDA未直接提供。在Spark的ml.classification.RandomForestClassificationModel中，可以通过featureImportances获取特征重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

……未完待补充……
ref:http://blog.datadive.net/selecting-good-features-part-iii-random-forests/

two methods:
1.Mean decrease impurity
大概是对于每颗树，按照impurity（gini /entropy /information gain）给特征排序，然后整个森林取平均

2.Mean decrease accuracy
大概就是measure一下对每个特征加躁，看对结果的准确率的影响。影响小说明这个特征不重要，反之重要
具体步骤如下：
在随机森林中某个特征X的重要性的计算方法如下：
1：对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据误差,记为errOOB1.
2: 随机地对袋外数据OOB所有样本的特征X加入噪声干扰(就可以随机的改变样本在特征X处的值),再次计算它的袋外数据误差,记为errOOB2.
3：假设随机森林中有Ntree棵树,那么对于特征X的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用这个表达式来作为相应特征的重要性的度量值是因为：若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高。
ref：https://w

最低0.47元/天解锁文章