信用评分卡模型开发中双峰分布原因及解决方案

信用评分卡模型开发中双峰分布原因及解决方案

 

文: 郑旻圻 邹钰 刘巧莉

转自:  数信互融

在信用评分卡模型开发过程中,正态性是检验模型信用评分分布是否有效的一个重要指标。正常情况下,标准的正态分布是单峰分布;但是在实际建模过程中,会遇到信用评分分布出现双峰的情况。

 

双峰分布出现时,数据规律一致性的假设被打破,我们需要从不同的角度考察其出现双峰分布的原因,对模型加以调整,使之准确地反映业务和数据中的规律,以便模型准确适用。

 

根据为数十家互联网金融企业建立评分卡模型的实践经验,我们总结了一些造成双峰分布的因素。

 

本文将从业务模式、录入系统变更和变量这三个角度,对信用评分分布的双峰情况加以分析并解释其出现的原因。通过实际案例,通过具体解决方案的分享,与读者共同探讨交流讨论。

 

 

 

 

 

1

参考模型:违约模型(先息后本和等本等息的混合模型)

解释角度:业务模式(或者叫好坏客户定义模式)

 

 

 

 

 

 根据项目初期的好坏客户定义,评分分布如图1所示。其中出现了双峰分布。

 

图1 信用评分分布直方图

 

考虑到好坏客户定义与实际业务模式相差较大且坏客户占比过低,采取重新定义好坏客户。新的评分分布直方图如图2所示。

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
双峰分布是指一个数据集呈现出两个明显的峰值,这两个峰值通常表示了两个不同的数据集或者现象。转化为正态分布意味着将这个双峰分布的数据集转化为一个符合正态分布的数据集。 在Stata,可以采取以下步骤将双峰分布转化为正态分布: 1. 探索性数据分析(EDA):首先,对双峰分布的数据进行探索性数据分析,了解数据的特征和分布情况。可以使用直方图、箱线图等方式查看数据的分布情况。 2. 数据拆分:根据双峰分布的特点,将数据集拆分为两个子数据集,分别代表两个峰值。这可以通过选择合适的分割点进行操作。 3. 正态性检验:对拆分后的两个子数据集分别进行正态性检验,可以使用Shapiro-Wilk检验或者Kolmogorov-Smirnov检验等方法。如果两个子数据集的分布接近于正态分布,则可以分别进行后续操作。 4. 数据处理:对于正态性检验不通过的子数据集,可以考虑进行数据处理。常见的方法包括对数据进行变换(如对数变换、平方根变换等)、去除异常值等等。可以使用Stata的相关命令进行数据处理。 5. 合并数据集:在进行数据处理之后,将两个子数据集合并为一个数据集。根据需要,可以用加权平均值等方法对合并后的数据进行计算,从而得到一个合适的正态分布数据。 6. 正态性检验:最后,对合并后的数据集进行正态性检验,确保数据集已经转变为正态分布。如果通过了正态性检验,即可认为双峰分布已经成功转化为正态分布。 总之,将双峰分布转化为正态分布在Stata是一个多步骤的过程,其包括数据拆分、正态性检验、数据处理、数据合并等操作。通过这些步骤的处理,可以得到一个符合正态分布的数据集。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值