评分卡概念讲解
1、 证据权重 WOE(Weight of Evidence)
1、 证据权重 WOE(Weight of Evidence)
在对变量进行降维和分段之后,为了方便的生成标准评分卡,我们需要对变量进行WOE变换。对变量进行WOE变换的好处主要包括三点:
(1)原变量各指标中不包含违约状态的信息,进行WOE变换后各变自变量中就同时包含了违约状态的信息,使各自变量跟违约状态直接相关。
(2)变量进行WOE变换后,回归参数的大小本身就说明了变量对打分的重要性,未做WOE变换的话,需要用其他辅助指标(如卡方统计量)才能判断各变量对打分的重要性。
(3)WOE变换优点包含标准化的作用,使量纲统一。
当然,不对变量进行WOE变换也可以一样生成标准评分卡,但此时需要处理大量的自变量数据,增加了模型开发程序的复杂性。因此,在开发信用卡风险评级模型时,最常用的方法是对自变量进行WOE的转换。
如上,变量ResStatus为类别变量,有三种类别:屋主、其他、承租人。表中计算了这个变量的每种类别对应目标变量所占的正常和违约的人数,正常占全部正常的比例(正常的分布)和违约占所有违约的比例(违约的分布),然后计算每个类别对应的 WOE 。
WOE 的定义如下:
或
其中 分别为第 i 类中违约用户数量、总的违约用户数量、第 i 类中正常用户数量、总的正常用户数量。
如果括号内的比值小于1, WOE 为负值;反之为正值。上面表中ResStatus变量为类别型变量,同样的定义和计算方法也适用于连续型变量,但对于连续型变量计算 WOE 之前,需要先将变量分段(bin)。
从上式中可以发现, 为第 i 类中违约与正常的比率与整个样本中违约与正常比率的比值的对数。因此,其目的是衡量第 i 类对违约与正常的比率的影响程度。越大,说明此类别更能区分违约与正常用户, 越小,此类别区分违约与正常不明显。
通常,对连续型变量进行分箱计算WOE之后,其各个分箱的WOE值应该呈现一个单调趋势。当然,有时连续性变量的WOE也有可能呈现一个U型趋势(比如在上面前言中评分卡的变量Age)。不管如何,首先都要从业务上能给出一个合理的解释,否则,这个变量很可能没法放到我们最后创建的评分卡中。
2、IV 定义
IV 是用来衡量自变量对目标变量的影响程度的指标。
IV 值是 WOE 的加权求和,在 的表达式中分为两个部分,可以认为前一部分表示此分组在全部数据中所占比例,后一部分则表示此分组区分违约与正常用户的能力。IVi 由两部分的值共同决定,也就决定了最后的 IV。
IV可以反应指标预测能力,可以根据IV进一步筛选指标
IV范围 | 预测力 |
---|---|
小于0.02 | 无预测力 |
0.02到0.10 | 弱 |
0.10到0.30 | 中等 |
大于0.30 | 强 |
IV的极端情况:
IV 依赖 WOE,如果在分箱后的某个分组对应的违约或者正常的用户数为0,则这个分组对应无穷大 ,相应的 为正无穷大 ,而此时这样分组是没有意义的。解决方法如下:
如果此分组在所有样本中所占比例比较大,则可考虑将此变量的分组单独作为一条规则,作为模型的前置条件或补充条件;
如果此分组在所有样本中所占比例比较小,可重新对变量进行分组,使这种现象不再发生;
可以将分组中的数据0用1代替,使计算有意义。
3、稳定性指数(PSI)
稳定性指数(population stability index, PSI)
是计算实际和预期的分值分布之间差异的一个衡量指标,
稳定性指数PSI与信息值(IV)的计算公式相同。信息值衡量的是两个离散变量之间的关联性,较低的取值表明两个变量的类别分布相似。稳定性指数遵循的准则如下:
稳定性指数可以用于以下三个目的:
作为验证统计量,以确保训练数据集与测试数据集得到的评分分布之间没有显著差异。
作为监控评分卡实施以后表现的控制措施。如果稳定性指数表明发生显著变化,需要调查原因,必要时甚至需要重建评分卡。
还可以监测预测变量的评分分布是否发生变化。