评分卡模型
1 消费信贷概述
1.1 消费金融概述
1、机构
- 银行系消费金融公司(信用卡)
- 实体(海尔家电)
- 电商体系(淘宝 京东下的借呗花呗 白条)。解决了用户电商消费过程中短期资金不足的痛点。
- 平台系。如趣店,乐信
2、含义
- 冲动性消费。用明天的钱来满足当下的需求。
3、其他
- 信贷产品利率国家规定是36%以内。
- 渗透率:中国30%,美国60%。每花出去的100元,中国有30是消费金融业务。美国则是60。
1.2 消费信贷发展痛点
- 信用风险量化困难,预测难
- 传统风控手段落后
- 信贷风控流程时间长,体验差。
1.3 痛点解决思路
- 数据
- 算法
- 系统
- 信用体系
评分:300-900分。
2 模型业务目标确定
2.1 风控内容
- 控制欺诈风险
- 选定目标客群
- 进行合理定价
- 控制和稳定不良水平
模型:用多维度数据、特征表示模型,给出预测概率。
策略:规则集。流程执行的结果。一般是if-then。结果基本为0或者1。
2.2 Vintage分析法
-
什么叫Vintage?英文含义:
-
起源:为了分析酒的品质(不同的年份)而开发出的一种分析方法。
-
实例:
Vintage分析是指评估不同年份的葡萄酒的品质随着窖藏时间的推移而发生的变化,并且窖藏一定年份后,葡萄酒的品质会趋于稳定。如下图,2000年的葡萄酒品质最好,窖藏5年左右,葡萄酒品质会趋于稳定。 -
Vintage分析被广泛应用于信用卡产业,分析的方法是针对信用卡不同时期开户的资产进行分别跟踪,按账龄长短进行同步对比,从而了解不同时期发行信用卡的资产质量情况。
-
实例:
上图为2017年4月至2018年12月放款的M3+(即逾期91天以上)的Vintage图和Vintage数据表,此图统计的逾期用的是月末的逾期状态(有些时候也可以使用历史逾期状态,一个客户只要发生过M3+逾期,未来每个月都将该客户记为M3+逾期客户),计算逾期率使用金额(也可使用笔数)。从图中可以看出,不同月份放款的M3+在经过9个周期(9个月)后趋于稳定,也就是说成熟期是在9个周期。
从图中还可以看出,资产质量不断提升(随着放款时间的延后,M3+逾期率在逐渐降低,即曲线一条比一条矮),2017年4月至6月的逾期率相对较高,从2017年7月开始逾期率发生较大程度的下降,有可能因为前几个月不断优化风控策略所致。
2.3 如何确定业务目标
主要通过计算以下两个指标:迁移率和滚动率 来最终确定我们的业务目标。
1、迁移率。
-
迁移率侧重于分析客户状态的发展变化路径,如M0-M1,M1-M2,M2-M3等。
-
具体含义:
- M0:没有逾期;
- M1:表示逾期1-30天;
- M2:表示逾期31-60天;
- M3:表示逾期61-90天;
- M4:表示逾期91-120天;
- M5:表示逾期121-150天;
- M6:表示逾期151-180天;
- M6+:表示逾期180天以上。
-
迁移率模型:是一种来预测未来坏账损失的方法,它通过对历史数据中处于某一拖欠位置的账户贷款余额每月拖欠变化情况的分析,来预测当期不同拖欠周期的未来坏账损失。
-
如何计算?
经过迁移率的计算,可以得到下表:
2018年7月的M0-M1迁移率为24% = 2018年7月的M1 / 2018年6月的M0 = 41110122/171325636
2018年8月的M0-M1迁移率为16.13% = 2018年8月的M1 / 2018年7月的M0 = 39655174/245923324
2018年8月的M6-M7迁移率为89.08% = 2018年8月的M7 / 2018年7月的M6 = 843310/946657
- 绘制月度迁移率的均值曲线图。
2、滚动率
- 滚动率分析可以对客户好坏程度进行定义。
- 滚动率分析就是从某个观察点之前的一段时间(称为观察期)的最坏的状态向观察点之后的一段时间(称为表现期)的最坏状态的发展变化情况,如下图:
- 发现滚动率的横着加起来为100%!
- 从表中可以看出:
- 正常的客户,在未来6个月里,有96%会保持正常状态。4%会出现逾期的情况;
- 逾期1期的客户,未来有81%会回到正常状态,即从良率为81%,13%维持不变(继续此状态),有6%会恶化;
- 逾期4期及以上的客户,从良率仅为4%,有82%会继续此状态。
2.4 Vintage和迁移率模型对比
- Vintage:能很好地解决时滞性问题,其核心思想是对不同时期的开户的资产进行分别跟踪,按照账龄的长短进行同步对比,从而了解不同时期发行信用卡的资产质量情况,是一个所谓竖切的概念
- 迁移率模型:能很好的提示信用卡账户整个生命周期中的衍变情况,是一个所谓横切的概念。
3 A卡和B卡
- 营销模型:征信局的数据(用户同意)。会做两个模型:风险模型;意愿模型。然后做一个两者的交叉模型,确定需要营销的人群。即营销主要对象为:风险较低而且意愿也能够有一定水平的用户。
3.1 A卡
- 申请:用户会提交相关材料进行审核。这里会使用A卡!A(Application)+配套策略决定是否会放款!
- A卡(Application score card)申请评分卡
- 贷前!
3.2 B卡
- 放款:贷中使用B(Behavior)卡及策略。
- B卡(Behavior score card)行为评分卡
- 贷中!
3.3 C卡
- 提醒催收:C(Collection)卡!结果:用户还款或者不还款!
- C卡(Collection score card)催收评分卡
- 贷后!
4 案例
银行端案例,具体建模步骤见下方:
下面主要讲申请模型(注意:数据在申请之前产生,不能用还款类的变量,虽然具有强相关性和预测性,但属于伪相关,属于信息泄露!)和信用评估模型(B卡!)。如果模型需要持续稳定的使用,需要进行监控!
4.1 背景
- 渠道
- 产品(额度 期限 利息 还款方式)
- 审批流程和数据
A卡目标:申请审批
B卡目标:贷中风险预警与决策
4.2 步骤
4.2.1 提数并数据预处理
比如收入变量的处理。有的是几千万,有的是几十万。需要做一个处理!比如极值处理。大于60万为一档等等。
4.2.2 模型流程
客群划分:
- 网络:网上用户。
- 机构:学校,企事业单位等。
- 按揭:知道了用户有某种资产(比如房、车),并且历史还款记录良好。
样本选取:
- 希望越近期越好,但样本量希望也足够多
- 尽量一整年!覆盖季节性
- 大额的样本去掉。一般消费性贷款属于高频小额!
- 小微的客户剔除。Why?【见后面Q&A】
- Boostrap抽样。
特征工程:
- 业务逻辑。了解每个指标是如何产生的!Garbage in Garbage out!只对certain的事情下手!
模型:
- 逻辑回归。运维成本低,银行接受程度较高!
分数:
- 350-900分之间。
4.2.3 策略
- 将所有样本等距分为 A-E 5个等级。
- 策略就是决策树的一条路径
4.2.4 评估效果
4.3 特征工程部分之分箱
1、定义
什么叫分箱?
- 连续值对应的特征离散化处理
- 多值特征进行合并
2、作用
- 减少噪音
- 避免极端值
- 有效处理缺失值
- 对特征进行标准化。值大部分在什么范围之内!
3、方法
- 无监督方法:
- 等距
- 等频
- 聚类
关于Python实现等频和等距的切分,之前有一篇博文涉及到,详情见:Python|数据透视表+cut切分+Kmeans聚类
- 有监督:Best Ks;优化参数合并
4、具体实现方法之一-woe编码
WOE编码。见 机器学习 | 特征工程
5 Q&A
Q1、样本选取中为什么将小微商户剔除?是因为有很多小微个体工商户是信用白户吗?如果是,请问下现在银行是否有一些措施?毕竟小微个体工商户的金融需求还是没有得到满足。
A1:
- 消费金融的目标群体更多是C端,而小微个体工商户属于B端!
- 目标群体的划分希望更可能的精细化!
Q2、模型评估上:A卡用户没有违约记录情况,不应该有违约记录情况,您是如何评估好坏的?是A卡上线了一段时间之后回收y 比如是否逾期 然后做评估对吗?
A2:
- 回收y
- 一开始数据就有y,但建模不要y,看评估效果是因为可以用来评估模型,那模型做的有什么意义呢?因为希望能对未知的客户进行预测!
Q3、最原始的阶段:有一个拍脑袋的过程 ,您这边有什么经验吗?
A3:
- 异常值检测。给每一个指标确定一个权重。一人就可以完成!
- PCA主成分降维。
- AHP层次分析法!但需要多人参与!
6 参考
- https://blog.csdn.net/juzexia/article/details/78520077
- https://blog.csdn.net/weixin_38030978/article/details/80446475
- https://blog.csdn.net/ssshi0819/article/details/87904561
- https://blog.csdn.net/everlasting_188/article/details/52084094
- 金融风控基本知识(iforest,AUC,PSI,KS曲线)https://blog.csdn.net/guoyuhaoaaa/article/details/82563017