python随机森林特征重要性_用随机森林进行特征重要性度量，筛选出来的重要特征是否只对该随机森林来说是重要的，而对其他模型不一定？...

weixin_39522486

于 2020-11-29 14:16:56 发布

阅读量290

点赞数

文章标签： python随机森林特征重要性

你的问题可以给出肯定的回答，重要性本来就是一个依赖于模型的指标，一些指标对模型A重要，但对B未必重要。

举个很简单的例子，在欧式距离中，量纲很重要，数值大距离就大数值小距离就小。而在余弦夹角表示距离时，量纲不重要，因为一除就约没了，重要的是两个向量的夹角。比如：

(1, 1, 1, 1)和(2, 2, 2, 2)：

$equation?tex=d%3D%5Csqrt%7B%281-2%29%5E2%5Ctimes4%7D%3D2%2C+cos%5Ctheta%3D%5Cfrac%7B1%5Ctimes2%5Ctimes4%7D%7B%5Csqrt%7B1%5E2%5Ctimes4%7D%5Csqrt%7B2%5E2%5Ctimes4%7D%7D%3D1$

(2, 2, 2, 2)和(4, 4, 4, 4)：

$equation?tex=d%3D%5Csqrt%7B%282-4%29%5E2%5Ctimes4%7D%3D4%2C+cos%5Ctheta%3D%5Cfrac%7B2%5Ctimes4%5Ctimes4%7D%7B%5Csqrt%7B2%5E2%5Ctimes4%7D%5Csqrt%7B4%5E2%5Ctimes4%7D%7D%3D1$

欧式距离翻倍余弦夹角不变。

对CNN来说，它自己可以学习模式，你筛过以后，可能把一些重要信息筛没了。比如以前分类问题中，一般认为嘈杂的背景对分类是起负作用的，把背景去掉要好很多。但几年前（2015左右）一篇用CNN做分类的文章结果表明，在ImageNet数据集上，把识别对象提取出来，放到不同的复杂背景中训练，准确率反而得到提升。

我在Valse上听的这个paper的报告，作者其实一开始想去背景的，后来发现这样结果更好，解释是测试带背景的，那么训练时在不同背景下，其实更多的学习到了目标的模式，而把嘈杂的背景部分忽略掉了。

这就是不同方法对数据要求的不同，所以这CNN上，不建议进行数据筛选，毕竟有稀疏性可以自动滤掉它认为不重要的数据。

weixin_39522486

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python随机森林特征重要性_用随机森林进行特征重要性度量，筛选出来的重要特征是否只对该随机森林来说是重要的，而对其他模型不一定？...

你的问题可以给出肯定的回答，重要性本来就是一个依赖于模型的指标，一些指标对模型A重要，但对B未必重要。举个很简单的例子，在欧式距离中，量纲很重要，数值大距离就大数值小距离就小。而在余弦夹角表示距离时，量纲不重要，因为一除就约没了，重要的是两个向量的夹角。比如：(1, 1, 1, 1)和(2, 2, 2, 2)：(2, 2, 2, 2)和(4, 4, 4, 4)：欧式距离翻倍余弦夹角不变。对CNN来...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。