信用卡评分总结

最新推荐文章于 2022-12-06 00:02:14 发布

Mark_Aussie

最新推荐文章于 2022-12-06 00:02:14 发布

阅读量966

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MarkAustralia/article/details/114533799

版权

评分卡模型基于假设“历史样本和未来样本服从同一总体分布”。

在使用mono_bin自动分箱是，使用X和Y的均值的斯皮尔曼系数确定等频分箱的区间数量，

当系数为1时，就是你的取值，系数唯一代表两者完全单调相关。

woe和iv

WOE的全称是“Weight of Evidence”，即证据权重。WOE是对原始自变量的一种编码形式。

WOE变换是一个分段函数，把自变量x与y之间的非线性关系转换为线性关系。

若把WOE定义如下，那么含义为：自变量x在经过WOE变换后，取值越大，预测为bad的概率越高。

woe就是与违约线性相关的一种特殊标准化处理。建模中x的取值，也是woe单调的原因，代表WOE每增加或者减少一个单位对于ln（odds）的线性影响。

特征的WOE乘以方程求解对应特征系数再乘以刻度就是这个特征在该分箱下得到的分数，特征的得分变化只跟WOE的变化而变化。

对一个变量进行WOE编码，首先把这个变量进行分组处理（也叫离散化、分箱）。

分组后，对于第i组，WOE的计算公式如下：

pyi是这个组中响应客户（风险模型中对应的是违约客户，指的是模型中预测变量取值为“是”或者说1的个体）占所有样本中所有响应客户的比例，

pni是这个组中未响应客户占样本中所有未响应客户的比例，

#yi是这个组中响应客户的数量，#ni是这个组中未响应客户的数量，

#yT是样本中所有响应客户的数量，#nT是样本中所有未响应客户的数量。

从这个公式中，WOE表示的是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。

对这个公式做一个简单变换，可以得到：

WOE也可理解是当前这个组中响应的客户和未响应客户的比值，和所有样本中这个比值的差异，这个差异是用这两个比值的比值取对数来表示的。

WOE越大，这种差异越大，这个分组里的样本响应的可能性就越大，WOE越小，差异越小，这个分组里的样本响应的可能性就越小。

iv：对于分组i，也会有一个对应的IV值，计算公式：

IV过高并不是好事，需要警惕，说明这个变量对y的区分度极好，很有可能它是滞后变量。

比如B卡中的某些贷后变量就可能会有很高的IV值。此时需要结合业务逻辑进行排查。

分完箱之后不代表我们就可以直接进行WOE赋值操作了。我们还需要检查初始的分箱是否有问题。常见的问题有以下几种：

部分区间的好坏比例（0、1比例）失衡，极端时，会出现bad或者good数量直接为0。此时的WOE值为无穷大。
分箱后，bad_rate不随着箱的取值大小而单调变化。

为什么用IV而不是直接用WOE？

IV在WOE的前面乘以了一个系数，而这个系数很好的考虑了这个分组中样本占整体样本的比例，

比例越低，这个分组对变量整体预测能力的贡献越低。

如果直接用WOE的绝对值加和，会得到一个很高的指标，这是不合理的。

IVi无论等于负无穷还是正无穷，都是没有意义的。

使用IV有一个缺点，就是不能自动处理变量的分组中出现响应比例为0或100%的情况。

遇到响应比例为0或者100%的情况，我们应该怎么做呢？建议如下：

（1）如果可能，直接把这个分组做成一个规则，作为模型的前置条件或补充条件；

（2）重新对变量进行离散化或分组，使每个分组的响应比例都不为0且不为100%，尤其是当一个分组个体数很小时（比如小于100个），强烈建议这样做，因为本身把一个分组个体数弄得很小就不是太合理。

（3）如果上面两种方法都无法使用，建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0，可以人工调整响应数为1，如果非响应数原本为0，可以人工调整非响应数为1.

构建分类模型后，获得选取的特征对应的参数值存在coef_中，使用分类模型的权重值coef和对应的woe计算对应的分数

如果Odds（几率）的定义是坏好比，也就是“负样本概率 / 正样本概率”，

在参数估计时，自变量前的权重系数w的符号是正的。要注意WOE和LR中Odds定义要一致。

当WOE中定义Odds是好坏比时，w系数为负；
当WOE中定义Odds是坏好比时，w系数为正；

将LR输出线性映射为信用分的公式如下，通常将常数A称为补偿，常数B称为刻度

将逻辑回归的概率记过转为分数，可将分数和概率使用线性表达式代表其关系

【2】

上式中，由于Odds是坏好比，Odds越大，代表bad的概率越高；而信用分越高，代表bad的概率越低。两者业务含义上相反，因此是减号。

1. 基准Odds：与真实违约概率一一对应，可换算得到违约概率。
2. 基准分数：在基准Odds时对应的信用分数。
3. PDO:（Points to Double the Odds）：Odds（坏好比）变成2倍时，所减少的信用分。

对odds的理解，及使用其求解A和B的值(个人理解)：

odds代表正样本的概率P / 负样本的概率(1 - P)；使用LR做二分类使用predict_proba获得每个样本的预测概率，odds就是其二者的比

使用假设值计算A和B时，设P=0.8，则1 - P = 0.2，odds=4，而当odds = 8时，对应的P约为0.889, 1 - P = 0.111；

如果使用1代表的信用卡中的违约，0为未违约，则P的0.8代表违约概率为0.8，

当P上升为0.889时，在0.8时对应的基准分数应减去PDO的值为P=0.889时的基础分

woe的单调性（连续变量）的理解：

1.woe要分箱后保持单调，是对分箱过程的约束（避免分箱过程太过贴近样本，即过拟合，避免波浪形分箱的存在）

2.确保业务上的可解释性（随着业务变量增大，用户为好用户概率也随着业务量单调变化），同样为了可解释性，U型有时也可以，比如说大家提到的年龄变量

如果自变量x与因变量y之间存在非线性关系，即x越大不能保证预测为好人/坏人的概率也越大。比如：随着x增大，P(Y=1|X)先增大，后变小。
此时可通过WOE变换，保持WOE曲线具备单调性，那么带来的好处在于：
1. 若WOE中Odds定义为好坏比（good/bad），那么woe(x)越大，y预测为好人的概率越高；
2. 若WOE中Odds定义为坏好比（bad/good），那么woe(x)越大，y预测为坏人的概率越高；
这就保证新的自变量x' = woe(x)与y之间具备正（负）相关，更加符合我们的习惯——随着x'增大，P(Y=1|X')也单调增大。
另一方面，LR这些线性模型的基本假设是x与y之间存在线性关系。

woe可提供额外信息，得到修正的后验概率，提供的额外信息要使模型分类效果好。

如有3个分箱，好坏数量分别为(100,20),(40,300),(200,20)，从woe的角度来看先减少再增大，这时候应该合并1,3分箱，使woe单调。

KS（kolmogorov-Smirnov）值衡量的是好坏样本累计各部分之间的差值。

好坏样本累计差异越大，KS指标越大。那么模型的风险区分能力越强。

KS的计算步骤：

1.按照模型的结果对每个账户进行打分。

2.所有账户按照评分排序，并从小到大分为10~20组。

3.计算每个评分区间的好坏账户数。（每个区间的good账户数n, 坏账户数m）

4.（1）计算每个评分区间的累计好账户数占总的好账户数的比例。（从第0个区间到第i个区间的good账户数ni 比所有的good账户数N，ni/N）

(2)计算每个评分区间累计坏账户数占总坏账户数的比值。(从第0个区间到第i个区间的bad账户数mi 比所有的bad账户数M， mi/M)

5.计算每个评分区间累计坏账户占比与累计好账户占比之间差的绝对值。（|mi/M - ni/N|，mi/M 减去ni/N的绝对值）然后取绝对值最大的那个值作为评分模型的KS值。

总的来说，KS值越高模型越好，但是过高也会出现问题，一般超过75时就要检视一下模型。

参考：

https://github.com/yancy-yin/Credit-score-card/tree/master/Give_me_some_credit (数据也可从此下载)

https://zhuanlan.zhihu.com/p/82670834(用于分数转换参考)

https://zhuanlan.zhihu.com/p/110369440(检测woe,iv值)

https://blog.csdn.net/ismedal/article/details/89380396(使用KS或GINI系数检测分值结果，这里的odds使用的是好坏比)

https://blog.csdn.net/guyu1003/article/details/109383918(KS值计算)

https://blog.csdn.net/weixin_44913707/article/details/105862361(计算评分的过程)

https://zhuanlan.zhihu.com/p/80134853(理解woe和iv)

https://www.cnblogs.com/nxld/p/6364966.html

https://www.cnblogs.com/cgmcoding/p/13500673.html

https://www.jianshu.com/p/f931a4df202c

https://www.cnblogs.com/wqbin/p/10547628.html(woe和iv)

https://blog.csdn.net/lz_peter/article/details/79628969(理解分数转换公式)

https://blog.csdn.net/XindiOntheWay/article/details/81914652(评分卡评价)

博客等级

码龄9年

243
原创

589
点赞

1753
收藏

319
粉丝

关注

私信

热门文章

分类专栏

大模型 3篇
AIOps 32篇
Python 59篇
nlp 61篇
机器学习 47篇
排序算法 9篇
C语言
JDK翻译 5篇
数据库 4篇

最新评论

whisper 语音识别的安装与使用
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619664161。
Celery使用小结
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
Python Logging 的使用
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
python 常用方法记录
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
Log BERT 日志异常检测
qq_45834721: 问一下大家有复现出论文里面提到的效果吗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。