随机森林的特征重要性排序

最新推荐文章于 2024-06-07 14:14:06 发布

嘀嗒嘀嘀嗒嘀

最新推荐文章于 2024-06-07 14:14:06 发布

阅读量4.9k

点赞数

分类专栏：机器学习-理论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ACBattle/article/details/88880422

版权

机器学习-理论专栏收录该内容

33 篇文章 3 订阅

订阅专栏

OOB计算

用未被选择到的学习的数据，做验证集计算。不必另外做validation了
在这里插入图片描述

Feature Selection

如果没有做好这部分，也是有缺点的：
在这里插入图片描述
其中最致命的就是，可能得到的是错误的答案，一不小心找到的关系就是关联，而不是原因。
所以RF中加入了在哪里切一刀。

pemunitation

随机打乱这个特征的数据，看最后的结果和之前是否一致，这样保证了数据分布的一致。
如果一致，说明特征影响并不大。
直接删除呢？并没办法很好的决定出是否重要，因为该特征可能对组合有效？改变太多对结果的影响并不好说。

特征重要性排序

在这个特征里面加入一些垃圾，如果和不放的准确率类似，那么就可以说明是重要的。
加什么垃圾呢？垃圾还能选吗？
一个是把原数据的分布改掉，一个是杂絮的影响。
有放回抽样bootstrap，这里选择类似的思想。

pemunitation test：看下原来的表现和现在被污染之后的表现的差距

$importance(i) = performance(D) - performance(D^p)$
这样的操作需要训练P次，实际的算法采用了近似的方法，采用OOB的方法计算特征重要度排序。
$importance(i) = E_{oob}(D) - E_{oob}(D^p)$ 如果是对原数据的分布进行改变，依旧没有什么影响。
但是可进一步转化为：
$importance(i) = E_{oob}(D) - E_{oob}^p(D)$ ，直接在验证上动手脚，训练只训练一次，但是计算OOB的时候对相应的特征，计算相应的OOB分数。

课后：

在这里插入图片描述

嘀嗒嘀嘀嗒嘀

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
随机森林的特征重要性排序

Feature Selection如果没有做好这部分，也是有缺点的：其中最致命的就是，可能得到的是错误的答案，一不小心找到的关系就是关联，而不是原因。所以RF中加入了在哪里切一刀。RF怎么选特征random test在这个特征里面加入一些垃圾，如果和不放的准确率类似，那么就可以说明是重要的。加什么垃圾呢？垃圾还能选吗？一个是把原数据的分布改掉，一个是杂絮的影响。有放回抽样boo...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。