随机森林如何评估特征重要性

小yuning

已于 2023-02-06 15:08:54 修改

阅读量1.8k

点赞数

分类专栏：算法基础文章标签：随机森林 sklearn

于 2021-12-23 10:27:59 首次发布

本文链接：https://blog.csdn.net/weixin_38502514/article/details/122100765

版权

sklearn中randomforest自带特征重要性评估功能，参考链接。
就是这个属性：feature_importances_，原理是使用基尼系数评估特征的重要性。但是这个评估对有许多unique特征值的高基数特征，效果不好。此时，可以使用sklearn.inspection.permutation_importance进行评估。
sklearn.inspection.permutation_importance 重排列特征重要性也是一种评估特征重要性的方法。就是将测试集样本对应的一个特征的值打乱，看打乱后的效果和打算前的效果，差距有多大。如果差距很大，证明特征重要。如果效果差不多，那么就证明这个特征不重要。

备注： 什么是有许多unique特征值的高基数特征？

假设特征为 $a$ ，样本都存在一个 $df$ 中，
令 $n u m s =$

关注

专栏目录