评分模型开发主要分为变量处理、模型建立、评分转换、模型评估4个步骤。
其中在变量处理的时候涉及IV值和WOE值的计算。
基于抽样后得到训练样本集数据,由于变量数量通常较多,不推荐直接采用逐步回归的方法进行筛选。
由于各个变量的量纲和取值区间存在很大的差别,通常会对变量的取值进行分箱并计算 证据权重 WOE值(weight of evidence) ,从而降低变量属性的个数,并且平滑的变量的变化趋势。
接下来,在此基础上计算 信息价值IV(information value) ,
**一般我们选择 IV值大于0.02的那些变量进入模型。
如果IV值大于 0.5 ,改变量就是属于过预测变量,通常被选座分群变量,将样本拆分成多个群体,针对不同的群体分别开发评分卡。**
分群的依据通常也会根据业务上的需要进行设定,常见以区域变量作为分群的标准。
证据权重WOE是用来衡量变量某个熟悉的风险的指标,WOE的计算公式:
WOE 的值越高,代表着该分组中客户是坏客户的风险越低。
IV值是用来衡量某个变量对好坏客户区分能力的一个指标,IV值公式如下:
IV值越大表示好坏客户在该变量上的分布差异就越大,也就是该变量的区分能力就越好。
对于IV值的解释预测力