随机森林筛选特征Matlab,特征筛选（随机森林）

最新推荐文章于 2024-08-15 18:23:25 发布

abacusai

最新推荐文章于 2024-08-15 18:23:25 发布

阅读量5.3k

点赞数 1

文章标签：随机森林筛选特征Matlab

本文介绍了如何利用随机森林进行特征筛选。通过分析每个特征在随机森林中的贡献，以基尼指数或OOB错误率为评价指标，评估特征的重要性。使用sklearn库训练随机森林模型并获取特征重要性，以葡萄酒数据集为例，展示了如何选择重要性高于特定阈值的特征。

摘要由CSDN通过智能技术生成

随机森林能够度量每个特征的重要性，我们可以依据这个重要性指标进而选择最重要的特征。sklearn中已经实现了用随机森林评估特征重要性，在训练好随机森林模型后，直接调用feature_importances属性就能得到每个特征的重要性。

特征筛选(随机森林)

一般情况下，数据集的特征成百上千，因此有必要从中选取对结果影响较大的特征来进行进一步建模，相关的方法有：主成分分析、lasso等，这里我们介绍的是通过随机森林来进行筛选。

用随机森林进行特征重要性评估的思想比较简单，主要是看每个特征在随机森林中的每棵树上做了多大的贡献，然后取平均值，最后比较不同特征之间的贡献大小。

贡献度的衡量指标包括：基尼指数(gini)、袋外数据(OOB)错误率作为评价指标来衡量。

衍生知识点：权重随机森林的应用(用于增加小样本的识别概率，从而提高总体的分类准确率)

随机森林/CART树在使用时一般通过gini值作为切分节点的标准，而在加权随机森林(WRF)中，权重的本质是赋给小类较大的权重，给大类较小的权重。也就是给小类更大的惩罚。权重的作用有2个，第1点是用于切分点选择中加权计算gini值，表达式如下：

8c62719eac94

image

其中，N表示未分离的节点，NL和NR分别表示分离后的左侧节点和右侧节点，Wi为c类样本的类权重，ni表示节点内各类样本的数量，Δi是不纯度减少量，该值越大表明分离点的分离效果越好。

第2点是在终节点&#

最低0.47元/天解锁文章

关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。