随机森林的特征重要性排序

OOB计算

用未被选择到的学习的数据,做验证集计算。不必另外做validation了
在这里插入图片描述

Feature Selection

如果没有做好这部分,也是有缺点的:
在这里插入图片描述
其中最致命的就是,可能得到的是错误的答案,一不小心找到的关系就是关联,而不是原因。
所以RF中加入了在哪里切一刀。

pemunitation

随机打乱这个特征的数据,看最后的结果和之前是否一致,这样保证了数据分布的一致。
如果一致,说明特征影响并不大。
直接删除呢?并没办法很好的决定出是否重要,因为该特征可能对组合有效?改变太多对结果的影响并不好说。

特征重要性排序

在这个特征里面加入一些垃圾,如果和不放的准确率类似,那么就可以说明是重要的。
加什么垃圾呢?垃圾还能选吗?
一个是把原数据的分布改掉,一个是杂絮的影响。
有放回抽样bootstrap,这里选择类似的思想。

pemunitation test:看下原来的表现和现在被污染之后的表现的差距

i m p o r t a n c e ( i ) = p e r f o r m a n c e ( D ) − p e r f o r m a n c e ( D p ) importance(i) = performance(D) - performance(D^p) importance(i)=performance(D)performance(Dp)
这样的操作需要训练P次,实际的算法采用了近似的方法,采用OOB的方法计算特征重要度排序。
i m p o r t a n c e ( i ) = E o o b ( D ) − E o o b ( D p ) importance(i) = E_{oob}(D) - E_{oob}(D^p) importance(i)=Eoob(D)Eoob(Dp) 如果是对原数据的分布进行改变,依旧没有什么影响。
但是可进一步转化为:
i m p o r t a n c e ( i ) = E o o b ( D ) − E o o b p ( D ) importance(i) = E_{oob}(D) - E_{oob}^p(D) importance(i)=Eoob(D)Eoobp(D),直接在验证上动手脚,训练只训练一次,但是计算OOB的时候对相应的特征,计算相应的OOB分数。

课后:

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随机森林特征重要性排序可以通过计算每个特征重要性度量值来实现。有几种常见的方法可以计算特征重要性度量值。 一种方法是使用袋外误差(OOB error)来计算特征重要性。对于每棵决策树,使用袋外数据来计算其袋外误差(errOOB1)。然后,随机地对袋外数据的特征X加入噪声干扰,再次计算袋外误差(errOOB2)。通过计算每棵树的袋外误差之差的平均值除以树的数量,可以得到特征X的重要性度量值。这个度量值越大,说明特征对样本的分类结果影响越大,重要程度越高。根据这个度量值,可以对特征进行排序,从而得到特征重要性排序。\[1\] 另一种方法是根据特征在每棵决策树中的排序来计算特征重要性。在随机森林中,每棵树都会根据不纯度(如Gini不纯度或信息增益/信息熵)对特征进行排序。然后,整个森林取特征排序的平均值作为特征重要性度量值。根据这个度量值,可以对特征进行排序,得到特征重要性排序。\[2\] 还有一种方法是通过测量每种特征对模型预测准确率的影响来计算特征重要性。这种方法会重新排列某一列特征值的顺序,观察模型准确率的降低程度。对于不重要的特征,这种方法对模型准确率的影响很小,但对于重要特征则会显著降低模型的准确率。通过这种方法,可以对特征进行排序,得到特征重要性排序。\[3\] 综上所述,可以使用这些方法之一来计算随机森林特征重要性度量值,并根据度量值对特征进行排序,得到特征重要性排序。 #### 引用[.reference_title] - *1* *2* *3* [随机森林特征重要性排序](https://blog.csdn.net/qq_15111861/article/details/80366787)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值