随机深林-特征重要性计算方式

最新推荐文章于 2024-06-28 06:30:00 发布

csdn_lzw

最新推荐文章于 2024-06-28 06:30:00 发布

阅读量5.7k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdn_lzw/article/details/80159735

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

特征重要性

一个数据集中往往有成百上前个特征，如何在其中选择比结果影响最大的那几个特征。
这里我们要介绍的是用随机森林来对进行特征筛选。
用随机森林进行特征重要性评估的思想其实很简单，说白了就是看看每个特征在随机森林中的每颗树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。
好了，那么这个贡献是怎么一个说法呢？
通常可以用基尼指数（Gini index）或者袋外数据（OOB）错误率作为评价指标来衡量。

方法一、利用基尼指数计算

参考文献 https://blog.csdn.net/zjuPeco/article/details/77371645?locationNum=7&fps=1
这里写图片描述

方法二、利用袋外数据（OOB）错误率计算

参考文献 http://blog.sina.com.cn/s/blog_7103b28a0102w7q1.html

计算某个特征X的重要性时，具体步骤如下：

1）对每一颗决策树，选择相应的袋外数据（out of bag，OOB）计算袋外数据误差，记为errOOB1.

袋外数据是指，每次建立决策树时，通过重复抽样得到一个数据用于训练决策树，这时还有大约1/3的数据没有被利用，没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估，计算模型的预测错误率，称为袋外数据误差。

已经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。

2）随机对袋外数据OOB所有样本的特征X加入噪声干扰（可以随机改变样本在特征X处的值），再次计算袋外数据误差，记为errOOB2。

3）假设森林中有N棵树，则特征X的重要性=∑（errOOB2-errOOB1）/N。这个数值之所以能够说明特征的重要性是因为，如果加入随机噪声后，袋外数据准确率大幅度下降（即errOOB2上升），说明这个特征对于样本的预测结果有很大影响，进而说明重要程度比较高。

可参考的文献
https://www.cnblogs.com/zhouxiaohui888/p/6008454.html
https://blog.csdn.net/xiaocong1990/article/details/61414747

关注

0
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
随机深林-特征重要性计算方式

特征重要性一个数据集中往往有成百上前个特征，如何在其中选择比结果影响最大的那几个特征。这里我们要介绍的是用随机森林来对进行特征筛选。用随机森林进行特征重要性评估的思想其实很简单，说白了就是看看每个特征在随机森林中的每颗树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。好了，那么这个贡献是怎么一个说法呢？通常可以用基尼指数（Gini index）或者袋外数据（OO...
复制链接

扫一扫

专栏目录

csdn_lzw CSDN认证博客专家 CSDN认证企业博客

码龄8年

100: 原创

13万+: 周排名

160万+: 总排名

25万+: 访问

: 等级

2820: 积分

64: 粉丝

90: 获赞

27: 评论

346: 收藏

私信

关注

热门文章

分类专栏

最新评论

随机深林-特征重要性计算方式
冰淇淋蛋糕冰淇淋蛋糕: 谢谢分享，写得很清楚！
oneclassSVM ，SVDD
此景应情: 请问，one class classification的评估指标是什么？怎么评估模型的好坏？
数据预处理——样本分布（正态分布、偏态分布）
weixin_39034217: 不懂。比如，原本非高斯序列x，经过y=log(x)函数的变化得到y，y虽然可能更加服从高斯分布，但是y已经不等于x了，y的高斯分布的均值和方差和x有什么关系嘛？可以通过y的高斯分布的均值和方差来近似x的嘛是？此外，log(x)需要x大于0吧。但是如果是x有小于零的元素呢。谢谢！
python中strip()，lstrip()，rstrip()函数的讲解
Tisfy: 这让我想起了先贤的一句话：将军角弓不得控，都护铁衣冷难着。
《机器学习实战》第三章 3.2在python 中使用matplotlib注解绘制树形图
木雨目q: treePloter 是什么?是自己写的，还是python3自带的

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。