Boruta
最近在搞一些机器学习的比赛,对特征筛选这块有点没什么经验,在面对百度编程过程中找到了Boruta这个工作,经过实验,达到相同效果的特征筛选数量上Boruta挑出来的数量少的一批,大量减少了计算量。在此记录一下原理,建议有时间去阅读阅读源码(Sklearn的代码写的都很棒,值得一看)
重要观念:
训练一个模型,随机生成的数据进行训练的效果一般都会比训练数据进行训练的效果差
总体思路:
对原始特征进行复制一份,并且将其按行进行随机打乱,称为Shadow Feature。将Shadow Feature与原始特征Real Feature进行横向拼接在一起,使用某种模型(随机森林、GBDT…)进行计算特征重要性。将Shadow Feature中重要性最高的值为基准,删除Real Feature中重要性低于其的特征。多重复几个迭代。(一般来说随机生成的特征效果不如原始的,因此可以以Shadow Feature的特征重要性作为基准来判断Real Feature的好坏)
特征保留条件:
满足二项分布:例如跑了20次迭代,记录每个特征保留的次数,只有满足如下图的横轴的次数才进行保留(紫色+绿色)
原码不复杂,可以阅读看看,挺有意思的:
飞机票