变量筛选
用户的属性很多,如果全部输入模型,时间开销太大,而且模型复杂度过高。也会导致模型泛化能力降低,需要提前剔除没有意义的变量。
挑选入模变量需要考虑很多因素,比如:变量的预测能力,变量之间的线性相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。
其中最主要和最直接的衡量标准是变量的预测能力和变量的线性相关性。本文主要探讨基于变量预测能力的单变量筛选,变量两两相关性分析,变量的多重共线性分析。
变量筛选的目的和作用
(1)剔除和目标变量不太相关的特征
(2)消除多重共线性的影响
(3)增加解释性
变量筛选的方式
(1)变量挑选
(2)降低维度
注意:变量挑选这是降低维度的其中一种方式,降低维度最有名的是:主成分分析法(PCA),PCA只是降低维度,并没有剔除变量特征
变量挑选常用手段
基于IV值的变量筛选
基于LASSO正则化的变量筛选
基于stepwise的变量筛选
基于特征重要度的变量筛选:RF, GBDT,XGboost…
1.单变量筛选
单变量的筛选基于变量预测能力,常用方法:
1.1基于IV值的单变量筛选
① 用IV值检验有效性
IV值(信息价值(information value)),是目前评分卡模型中筛选变量最常用的指标之一。
自变量的IV值越大,表示自变量的预测能力越强。类似的指标还有信息增益、基尼(gini)系数等。常用判断标准如下:
变量第i个分箱的IV值计算公式如下: