变量筛选
用户的属性有千千万万个维度,而评分卡模型所选用的字段在30个以下,那么怎样挑选这些字段呢?
挑选入模变量需要考虑很多因素,比如:变量的预测能力,变量之间的线性相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。
其中最主要和最直接的衡量标准是变量的预测能力和变量的线性相关性。
本文主要探讨基于变量预测能力的单变量筛选,变量两两相关性分析,变量的多重共线性分析。
1.单变量筛选
单变量的筛选基于变量预测能力,常用方法:
基于IV值的变量筛选
基于stepwise的变量筛选
基于特征重要度的变量筛选:RF, GBDT…
基于LASSO正则化的变量筛选
1.1基于单变量的IV值筛选
① 用IV值检验有效性
IV值(信息价值(information value)),是目前评分卡模型中筛选变量最常用的指标之一。
自变量的IV值越大,表示自变量的预测能力越强。类似的指标还有信息增益、基尼(gini)系数等。常用判断标准如下:
变量第i个分箱的IV值计算公式如下: