评分卡概念讲解

本文详细介绍了评分卡的概念,重点讲解了证据权重WOE的计算与作用,如何衡量变量对目标变量影响的IV值,以及评估评分卡稳定性的PSI指数。WOE变换有助于模型开发,IV用于筛选指标,PSI则用于评分卡稳定性的监控。
摘要由CSDN通过智能技术生成

评分卡概念讲解

1、 证据权重 WOE(Weight of Evidence)

2、IV 定义

3、稳定性指数(PSI)


1、 证据权重 WOE(Weight of Evidence)

 在对变量进行降维和分段之后,为了方便的生成标准评分卡,我们需要对变量进行WOE变换。对变量进行WOE变换的好处主要包括三点:

(1)原变量各指标中不包含违约状态的信息,进行WOE变换后各变自变量中就同时包含了违约状态的信息,使各自变量跟违约状态直接相关。

(2)变量进行WOE变换后,回归参数的大小本身就说明了变量对打分的重要性,未做WOE变换的话,需要用其他辅助指标(如卡方统计量)才能判断各变量对打分的重要性。

(3)WOE变换优点包含标准化的作用,使量纲统一。

当然,不对变量进行WOE变换也可以一样生成标准评分卡,但此时需要处理大量的自变量数据,增加了模型开发程序的复杂性。因此,在开发信用卡风险评级模型时,最常用的方法是对自变量进行WOE的转换。

图片名称

如上,变量ResStatus为类别变量,有三种类别:屋主、其他、承租人。表中计算了这个变量的每种类别对应目标变量所占的正常和违约的人数,正常占全部正常的比例(正常的分布)和违约占所有违约的比例(违约的分布),然后计算每个类别对应的 WOE 。

WOE 的定义如下:

WOE_{i} = ln[\frac{BadDistribution}{GoodDistribution}]       

WOE_{i} = ln(\frac{B_{i}/B_{T}}{G_{i}/G_{T}})


其中B_{i},B_{T},G_{i},G_{T} 分别为第 i 类中违约用户数量、总的违约用户数量、第 i 类中正常用户数量、总的正常用户数量。

如果括号内的比值小于1, WOE 为负值;反之为正值。上面表中ResStatus变量为类别型变量,同样的定义和计算方法也适用于连续型变量,但对于连续型变量计算 WOE 之前,需要先将变量分段(bin)。

从上式中可以发现,WOE_{i} 为第 i 类中违约与正常的比率与整个样本中违约与正常比率的比值的对数。因此,其目的是衡量第 i 类对违约与正常的比率的影响程度。|WOE_{i}|越大,说明此类别更能区分违约与正常用户, |WOE_{i}|越小,此类别区分违约与正常不明显。

通常,对连续型变量进行分箱计算WOE之后,其各个分箱的WOE值应该呈现一个单调趋势。当然,有时连续性变量的WOE也有可能呈现一个U型趋势(比如在上面前言中评分卡的变量Age)。不管如何,首先都要从业务上能给出一个合理的解释,否则,这个变量很可能没法放到我们最后创建的评分卡中。

2、IV 定义

IV 是用来衡量自变量对目标变量的影响程度的指标。

IV_{i} = (B_{i}/B_{T} - G_{i}/G_{T}) * ln(\frac{B_{i}/B_{T}}{G_{i}/G_{T}})

IV = \sum_{i} IV_{i}

IV 值是 WOE 的加权求和,在 IV_{i} 的表达式中分为两个部分,可以认为前一部分表示此分组在全部数据中所占比例,后一部分则表示此分组区分违约与正常用户的能力。IVi 由两部分的值共同决定,也就决定了最后的 IV。

 

IV可以反应指标预测能力,可以根据IV进一步筛选指标

信息值与预测力关系
IV范围预测力
小于0.02无预测力
0.02到0.10
0.10到0.30中等
大于0.30

IV的极端情况:

IV 依赖 WOE,如果在分箱后的某个分组对应的违约或者正常的用户数为0,则这个分组对应WOE_{i}无穷大 ,相应的 IV_{i}为正无穷大 ,而此时这样分组是没有意义的。解决方法如下:

如果此分组在所有样本中所占比例比较大,则可考虑将此变量的分组单独作为一条规则,作为模型的前置条件或补充条件;

如果此分组在所有样本中所占比例比较小,可重新对变量进行分组,使这种现象不再发生;

可以将分组中的数据0用1代替,使计算有意义。

3、稳定性指数(PSI)

 

稳定性指数(population stability index, PSI)是计算实际和预期的分值分布之间差异的一个衡量指标, 

PSI = \sum_{i}(A_{i} - E_{i})ln(A_{i} /E_{i})

稳定性指数PSI与信息值(IV)的计算公式相同。信息值衡量的是两个离散变量之间的关联性,较低的取值表明两个变量的类别分布相似。稳定性指数遵循的准则如下:

 

稳定性指数可以用于以下三个目的:

作为验证统计量,以确保训练数据集与测试数据集得到的评分分布之间没有显著差异。

作为监控评分卡实施以后表现的控制措施。如果稳定性指数表明发生显著变化,需要调查原因,必要时甚至需要重建评分卡。

还可以监测预测变量的评分分布是否发生变化。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值