特征筛选利器:Boruta 原理

Boruta

最近在搞一些机器学习的比赛,对特征筛选这块有点没什么经验,在面对百度编程过程中找到了Boruta这个工作,经过实验,达到相同效果的特征筛选数量上Boruta挑出来的数量少的一批,大量减少了计算量。在此记录一下原理,建议有时间去阅读阅读源码(Sklearn的代码写的都很棒,值得一看)

重要观念:

训练一个模型,随机生成的数据进行训练的效果一般都会比训练数据进行训练的效果差

总体思路:

对原始特征进行复制一份,并且将其按行进行随机打乱,称为Shadow Feature。将Shadow Feature与原始特征Real Feature进行横向拼接在一起,使用某种模型(随机森林、GBDT…)进行计算特征重要性。将Shadow Feature中重要性最高的值为基准,删除Real Feature中重要性低于其的特征。多重复几个迭代。(一般来说随机生成的特征效果不如原始的,因此可以以Shadow Feature的特征重要性作为基准来判断Real Feature的好坏)

特征保留条件:

满足二项分布:例如跑了20次迭代,记录每个特征保留的次数,只有满足如下图的横轴的次数才进行保留(紫色+绿色)

https://pic2.zhimg.com/v2-036cb6fa49ad184f10a093939e30dfdd_b.jpg

原码不复杂,可以阅读看看,挺有意思的:
飞机票

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值