信用卡评分总结

评分卡模型基于假设“历史样本和未来样本服从同一总体分布”。

在使用mono_bin自动分箱是,使用X和Y的均值的斯皮尔曼系数确定等频分箱的区间数量,

当系数为1时,就是你的取值,系数唯一代表两者完全单调相关。

woe和iv

WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。

WOE变换是一个分段函数,自变量x与y之间的非线性关系转换为线性关系

若把WOE定义如下,那么含义为:自变量x在经过WOE变换后,取值越大,预测为bad的概率越高。

woe就是与违约线性相关的一种特殊标准化处理。建模中x的取值,也是woe单调的原因,代表WOE每增加或者减少一个单位对于ln(odds)的线性影响。

特征的WOE乘以方程求解对应特征系数再乘以刻度就是这个特征在该分箱下得到的分数,特征的得分变化只跟WOE的变化而变化。

对一个变量进行WOE编码,首先把这个变量进行分组处理(也叫离散化、分箱)。

分组后,对于第i组,WOE的计算公式如下:

pyi是这个组中响应客户(风险模型中对应的是违约客户,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,

pni是这个组中未响应客户占样本中所有未响应客户的比例,

#yi是这个组中响应客户的数量,#ni是这个组中未响应客户的数量,

#yT是样本中所有响应客户的数量,#nT是样本中所有未响应客户的数量。

从这个公式中,WOE表示的是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。

对这个公式做一个简单变换,可以得到:

WOE也可理解是当前这个组中响应的客户和未响应客户的比值,和所有样本中这个比值的差异,这个差异是用这两个比值的比值取对数来表示的。

WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大,WOE越小,差异越小,这个分组里的样本响应的可能性就越小。

iv:对于分组i,也会有一个对应的IV值,计算公式:

IV过高并不是好事,需要警惕,说明这个变量对y的区分度极好,很有可能它是滞后变量。

比如B卡中的某些贷后变量就可能会有很高的IV值。此时需要结合业务逻辑进行排查。

分完箱之后不代表我们就可以直接进行WOE赋值操作了。我们还需要检查初始的分箱是否有问题。常见的问题有以下几种:

  • 部分区间的好坏比例(0、1比例)失衡,极端时,会出现bad或者good数量直接为0。此时的WOE值为无穷大。
  • 分箱后,bad_rate不随着箱的取值大小而单调变化。

为什么用IV而不是直接用WOE?

IV在WOE的前面乘以了一个系数,而这个系数很好的考虑了这个分组中样本占整体样本的比例,

比例越低,这个分组对变量整体预测能力的贡献越低。

如果直接用WOE的绝对值加和,会得到一个很高的指标,这是不合理的。

 

IVi无论等于负无穷还是正无穷,都是没有意义的。

使用IV有一个缺点,就是不能自动处理变量的分组中出现响应比例为0或100%的情况。

遇到响应比例为0或者100%的情况,我们应该怎么做呢?建议如下:

(1)如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件;

(2)重新对变量进行离散化或分组,使每个分组的响应比例都不为0且不为100%,尤其是当一个分组个体数很小时(比如小于100个),强烈建议这样做,因为本身把一个分组个体数弄得很小就不是太合理。

(3)如果上面两种方法都无法使用,建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0,可以人工调整响应数为1,如果非响应数原本为0,可以人工调整非响应数为1.

 

构建分类模型后,获得选取的特征对应的参数值存在coef_中,使用分类模型的权重值coef和对应的woe计算对应的分数

如果Odds(几率)的定义是坏好比,也就是“负样本概率 / 正样本概率”

在参数估计时,自变量前的权重系数w的符号是正的。要注意WOE和LR中Odds定义要一致

  1. 当WOE中定义Odds是好坏比时,w系数为
  2. 当WOE中定义Odds是坏好比时,w系数为

将LR输出线性映射为信用分的公式如下,通常将常数A称为补偿常数B称为刻度

将逻辑回归的概率记过转为分数,可将分数和概率使用线性表达式代表其关系

【2】

上式中,由于Odds是坏好比,Odds越大,代表bad的概率越高;而信用分越高,代表bad的概率越低。两者业务含义上相反,因此是减号

  • 1. 基准Odds:与真实违约概率一一对应,可换算得到违约概率。
  • 2. 基准分数:在基准Odds时对应的信用分数。
  • 3. PDO:(Points to Double the Odds):Odds(坏好比)变成2倍时,所减少的信用分。

对odds的理解,及使用其求解A和B的值(个人理解):

odds代表正样本的概率P / 负样本的概率(1 - P);使用LR做二分类使用predict_proba获得每个样本的预测概率,odds就是其二者的比

使用假设值计算A和B时,设P=0.8,则1 - P = 0.2,odds=4,而当odds = 8时,对应的P约为0.889, 1 - P = 0.111;

如果使用1代表的信用卡中的违约,0为未违约,则P的0.8代表违约概率为0.8,

当P上升为0.889时,在0.8时对应的基准分数应减去PDO的值为P=0.889时的基础分

 

woe的单调性(连续变量)的理解:

1.woe要分箱后保持单调,是对分箱过程的约束(避免分箱过程太过贴近样本,即过拟合,避免波浪形分箱的存在)

2.确保业务上的可解释性(随着业务变量增大,用户为好用户概率也随着业务量单调变化),同样为了可解释性,U型有时也可以,比如说大家提到的年龄变量

如果自变量x与因变量y之间存在非线性关系,即x越大不能保证预测为好人/坏人的概率也越大。比如:随着x增大,P(Y=1|X)先增大,后变小。
此时可通过WOE变换,保持WOE曲线具备单调性,那么带来的好处在于:
1. 若WOE中Odds定义为好坏比(good/bad),那么woe(x)越大,y预测为好人的概率越高;
2. 若WOE中Odds定义为坏好比(bad/good),那么woe(x)越大,y预测为坏人的概率越高;
这就保证新的自变量x' = woe(x)与y之间具备正(负)相关,更加符合我们的习惯——随着x'增大,P(Y=1|X')也单调增大。
另一方面,LR这些线性模型的基本假设是x与y之间存在线性关系。

woe可提供额外信息,得到修正的后验概率,提供的额外信息要使模型分类效果好。

如有3个分箱,好坏数量分别为(100,20),(40,300),(200,20),从woe的角度来看先减少再增大,这时候应该合并1,3分箱,使woe单调。

 

KS(kolmogorov-Smirnov)值衡量的是好坏样本累计各部分之间的差值。

好坏样本累计差异越大,KS指标越大。那么模型的风险区分能力越强。

KS的计算步骤:

1.按照模型的结果对每个账户进行打分。

2.所有账户按照评分排序,并从小到大分为10~20组。

3.计算每个评分区间的好坏账户数。(每个区间的good账户数n, 坏账户数m)

4.(1)计算每个评分区间的累计好账户数占总的好账户数的比例。(从第0个区间到第i个区间的good账户数ni 比 所有的good账户数N,ni/N)

     (2)计算每个评分区间累计坏账户数占总坏账户数的比值。(从第0个区间到第i个区间的bad账户数mi 比 所有的bad账户数M, mi/M)

5.计算每个评分区间累计坏账户占比与累计好账户占比之间差的绝对值。(|mi/M - ni/N|,mi/M 减去ni/N的绝对值)然后取绝对值最大的那个值作为评分模型的KS值。

总的来说,KS值越高模型越好,但是过高也会出现问题,一般超过75时就要检视一下模型。

 

参考:

https://github.com/yancy-yin/Credit-score-card/tree/master/Give_me_some_credit (数据也可从此下载)

https://zhuanlan.zhihu.com/p/82670834(用于分数转换参考)

https://zhuanlan.zhihu.com/p/110369440(检测woe,iv值)

https://blog.csdn.net/ismedal/article/details/89380396(使用KS或GINI系数检测分值结果,这里的odds使用的是好坏比)

https://blog.csdn.net/guyu1003/article/details/109383918(KS值计算)

https://blog.csdn.net/weixin_44913707/article/details/105862361(计算评分的过程)

https://zhuanlan.zhihu.com/p/80134853(理解woe和iv)

https://www.cnblogs.com/nxld/p/6364966.html

https://www.cnblogs.com/cgmcoding/p/13500673.html

https://www.jianshu.com/p/f931a4df202c

https://www.cnblogs.com/wqbin/p/10547628.html(woe和iv)

https://blog.csdn.net/lz_peter/article/details/79628969(理解分数转换公式)

https://blog.csdn.net/XindiOntheWay/article/details/81914652(评分卡评价)

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值