前向、后向和双向特征选择,属于包裹式特征选择,理论上来说,对于所有的算法都可以使用这样的思想。
1、前向特征选择:
首先从所有特征中选择特征的重要性最大的特征入模型,这里如何衡量特征的重要性有很多很多的方法,比如tree的feature_importance,比如各种过滤式特征选择的特征衡量指标:gini、卡方值等等,比如模型的评价指标:auc、ks等等也可以用于定义特征的重要性程度。不过在线性模型中比较常见的衡量标准还是aic和bic。
不过线性模型中还有一个麻烦的地方在于,每次选入的特征还要进行F检验和T检验等,其实不用这么麻烦的。。。数据量大的时候一般不怎么做假设检验。。。
补充说明:
AIC和BIC准则www.jianshu.com很多参数估计问题均采用似然函数作为目标函数,当训练数据足够多时,可以不断提高模型精度,但是以提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题——过拟合。
所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。
人们提出许多信息准则,通过加入模型复杂度的惩罚项来避免过拟合问题,此处我们介绍一下常用的两个模型选择方法:
1赤池信息准则(Akaike Informatio