在特征工程当中,我们经常要对特征进行选择。最近在做股票的多因子分析,指导老师给了我一篇英文文献让我看一下,文献中用到了Stability和RFE两种方法,因此,我在这里对这两种方法进行一下说明。
Stability——稳定性选择
RFE——递归特征消除(Recursive Feature Elimination)
以上两种方法都可以考虑wrapper方法。他们都建立在基于模型的选择方法之上,利用不同的数据子集,构建不同的模型,并从聚合中给出排名。
Stability selection
稳定性选择是用于特征选择的相对新颖的方法,高层次的想法是将特征选择算法应用于不同的数据子集和不同的特征子集。对这个方法进行多次重复,然后我们汇总选择结果。例如,通过检查特征在被检查的特征子集中的被选择为最重要的次数。我们可以预期,最强大的特征的出现次数将达到100%,因为他们总是在可能的情况下被选择到;较弱但是也比较相关的特征的将具有一个非零的数字,因为当在当前选择的子集中不存在较强特征时将选择它们,而不相关特征将具有零分(接近于零),因为它们将永远不会被选中特征。
Sklearn在randomized lasso和randomized logistics regression classes中实现稳定性选择,代码如下所示。
from sklearn.linear_model import RandomizedLasso
from sklearn.datasets import load_boston
boston = load_boston()
#using the Boston housing da