随机森林如何评估特征重要性

最新推荐文章于 2024-07-30 22:55:11 发布

沫嫣子

最新推荐文章于 2024-07-30 22:55:11 发布

阅读量9.3k

点赞数

分类专栏：机器学习算法文章标签：机器学习算法

机器学习算法专栏收录该内容

14 篇文章 0 订阅

订阅专栏

序

集成学习模型的一大特点是可以输出特征重要性，特征重要性能够在一定程度上辅助我们对特征进行筛选，从而使得模型的鲁棒性更好。

随机森林中进行特征重要性的评估思想为：
判断每个特征在随机森林中的每颗树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。

RF评估特征重要性--基于基尼指数

基尼指数计算方法：k 代表 k 个类别， p_k 代表类别 k的样本权重。

那么特征

X_j

在节点m上的重要性，即节点m分枝前后的Gini指数变化量为：
(其中，GIl和GIr分别表示分枝后两个新节点的Gini指数)

RF评估特征重要性--基于袋外数据

对于一棵树 T_i ，用OOB样本可以得到误差 e1，然后随机改变OOB中的第 j 列，保持其他列不变，对第 j 列进行随机的上下置换，得到误差 e2。至此，可以用 e1-e2 来刻画特征 j 的重要性。其依据就是，如果一个特征很重要，那么其变动后会非常影响测试误差，如果测试误差没有怎么改变，则说明特征j不重要。

而该方法中涉及到的对数据进行打乱的方法通常有两种：
1）是使用uniform或者gaussian抽取随机值替换原特征；
2）是通过permutation的方式将原来的所有N个样本的第 i 个特征值重新打乱分布（相当于重新洗牌）。

比较而言，第二种方法更加科学，保证了特征替代值与原特征的分布是近似的（只是重新洗牌而已）。这种方法叫做permutation test（随机排序测试），即在计算第 i 个特征的重要性的时候，将N个样本的第 i 个特征重新洗牌

转载注明：https://www.jianshu.com/p/7a876bb876b9

作者：0过把火0
链接：https://www.jianshu.com/p/7a876bb876b9
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

关注

0
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

沫嫣子 CSDN认证博客专家 CSDN认证企业博客

码龄7年

47: 原创

10万+: 周排名

102万+: 总排名

12万+: 访问

: 等级

1745: 积分

33: 粉丝

46: 获赞

9: 评论

388: 收藏

私信

关注

热门文章

分类专栏

特征工程 7篇
tensorflow 9篇
R
SQL 12篇
python 22篇
pycharm 1篇
数据挖掘求职 1篇
数据挖掘 28篇
数据结构 15篇
NLP 2篇
机器学习算法 14篇
大数据 1篇
数据分析 1篇
Hadoop 1篇
hive 2篇
推荐系统 1篇

最新评论

SQL进阶练习题50道
weixin_45075706: 第十三题明显有问题啊
机器学习-训练模型的保存与恢复（sklearn）
hahah_666: clf.predit(test_X) 这行报错：‘function’ object has no attribute 'predict' 为什么呢？
XGBoost和LightGBM的参数以及调参
怀瑾扬波: 本人小白，请问一次性交叉检验这么多参数大概需要多长时间？我一千多个数据，交叉检验的数据和您例子中提到的差不多，用matebook已经跑了一个小时了还没结束。想要升级电脑的话需要升级哪些硬件呢？
SQL进阶练习题50道
DU__ 回复张鱼の: 做了挺久了忘记当时什么情况了，第七题不是查出来学过的么，用not in[第七题学过的同学]，这样试试
SQL进阶练习题50道
张鱼の回复 DU__: 第八题你可以出来正确答案吗，为啥我这里查询出来的结果是错的。！= 不生效

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。