python随机森林筛选变量_特征筛选（随机森林）

最新推荐文章于 2024-06-25 11:43:10 发布

weixin_39871162

最新推荐文章于 2024-06-25 11:43:10 发布

阅读量6.8k

点赞数 3

文章标签： python随机森林筛选变量

参考：http://blog.csdn.net/zjuPeco/article/details/77371645?locationNum=7&fps=1

一般情况下，数据集的特征成百上千，因此有必要从中选取对结果影响较大的特征来进行进一步建模，相关的方法有：主成分分析、lasso等，这里我们介绍的是通过随机森林来进行筛选。

用随机森林进行特征重要性评估的思想比较简单，主要是看每个特征在随机森林中的每棵树上做了多大的贡献，然后取平均值，最后比较不同特征之间的贡献大小。

贡献度的衡量指标包括：基尼指数(gini)、袋外数据(OOB)错误率作为评价指标来衡量。

衍生知识点：权重随机森林的应用(用于增加小样本的识别概率，从而提高总体的分类准确率)

随机森林/CART树在使用时一般通过gini值作为切分节点的标准，而在加权随机森林(WRF)中，权重的本质是赋给小类较大的权重，给大类较小的权重。也就是给小类更大的惩罚。权重的作用有2个，第1点是用于切分点选择中加权计算gini值，表达式如下：

其中，N表示未分离的节点，NL和NR分别表示分离后的左侧节点和右侧节点，Wi为c类样本的类权重，ni表示节点内各类样本的数量，Δi是不纯度减少量，该值越大表明分离点的分离效果越好。

第2点是在终节点，类权重用来决定其类标签，表达式如下：

参考文献：随机森林针对小样本数据类权重设置 https://wenku.baidu.com/view/07ba98cca0c7aa00b52acfc789eb172ded639998.html

这里介绍通过gini值来进行评价，我们将变量的重要性评分用VIM来表示，gini值用GI表示，假设有m个特征X1，X2，...Xc，现在要计算出每个特征Xj的gini指数评分VIMj，即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量，gini指数的计算公式如下表示：

<

最低0.47元/天解锁文章

weixin_39871162

关注

3
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
python随机森林筛选变量_特征筛选（随机森林）

参考：http://blog.csdn.net/zjuPeco/article/details/77371645?locationNum=7&fps=1一般情况下，数据集的特征成百上千，因此有必要从中选取对结果影响较大的特征来进行进一步建模，相关的方法有：主成分分析、lasso等，这里我们介绍的是通过随机森林来进行筛选。用随机森林进行特征重要性评估的思想比较简单，主要是看每个特征在随机森林...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。