特征筛选利器：Boruta 原理

最新推荐文章于 2025-03-14 14:50:52 发布

rainweic

最新推荐文章于 2025-03-14 14:50:52 发布

阅读量1.8k

点赞数

分类专栏：机器学习文章标签： python 机器学习 sklearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rainweic/article/details/126231778

版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

Boruta是一种特征选择方法，通过对比原始特征与随机生成的影子特征来确定重要性。它基于随机森林算法，通过多次迭代，保留那些在多次运行中频繁超过影子特征的原始特征。这种方法能有效减少计算量，适用于特征筛选。在机器学习比赛中，Boruta可以帮助找到关键特征，提高模型效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Boruta

最近在搞一些机器学习的比赛，对特征筛选这块有点没什么经验，在面对百度编程过程中找到了Boruta这个工作，经过实验，达到相同效果的特征筛选数量上Boruta挑出来的数量少的一批，大量减少了计算量。在此记录一下原理，建议有时间去阅读阅读源码（Sklearn的代码写的都很棒，值得一看）

重要观念：

训练一个模型，随机生成的数据进行训练的效果一般都会比训练数据进行训练的效果差

总体思路：

对原始特征进行复制一份，并且将其按行进行随机打乱，称为Shadow Feature。将Shadow Feature与原始特征Real Feature进行横向拼接在一起，使用某种模型（随机森林、GBDT…）进行计算特征重要性。将Shadow Feature中重要性最高的值为基准，删除Real Feature中重要性低于其的特征。多重复几个迭代。（一般来说随机生成的特征效果不如原始的，因此可以以Shadow Feature的特征重要性作为基准来判断Real Feature的好坏）

特征保留条件：

满足二项分布：例如跑了20次迭代，记录每个特征保留的次数，只有满足如下图的横轴的次数才进行保留（紫色+绿色）

原码不复杂，可以阅读看看，挺有意思的：
飞机票

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。