信用评分卡模型开发中双峰分布原因及解决方案
文: 郑旻圻 邹钰 刘巧莉
转自: 数信互融
在信用评分卡模型开发过程中,正态性是检验模型信用评分分布是否有效的一个重要指标。正常情况下,标准的正态分布是单峰分布;但是在实际建模过程中,会遇到信用评分分布出现双峰的情况。
双峰分布出现时,数据规律一致性的假设被打破,我们需要从不同的角度考察其出现双峰分布的原因,对模型加以调整,使之准确地反映业务和数据中的规律,以便模型准确适用。
根据为数十家互联网金融企业建立评分卡模型的实践经验,我们总结了一些造成双峰分布的因素。
本文将从业务模式、录入系统变更和变量这三个角度,对信用评分分布的双峰情况加以分析并解释其出现的原因。通过实际案例,通过具体解决方案的分享,与读者共同探讨交流讨论。
1
参考模型:违约模型(先息后本和等本等息的混合模型)
解释角度:业务模式(或者叫好坏客户定义模式)
根据项目初期的好坏客户定义,评分分布如图1所示。其中出现了双峰分布。
图1 信用评分分布直方图
考虑到好坏客户定义与实际业务模式相差较大且坏客户占比过低,采取重新定义好坏客户。新的评分分布直方图如图2所示。