金融信贷风控(一)——申请评分卡

互联网金融业申请评分卡介绍

申请评分卡的重要性和特性

评分卡:

  • 以分数的形式来衡量风险几率
  • 未来一段时间内违约\逾期\失联概率的预测
  • 通常分数越高越安全
  • 申请环节:反欺诈评分卡,申请评分卡;监控环节:行为评分卡;逾期环节:催收评分卡
评分卡类型含义意义
申请评分卡用在申请环节,以者当日及过去的信息为基础预测未来放款后的逾期和违约概率。用于风险控制(借贷生命周期的第一个关口)、营销(识别优质客户)、资本管理(可作为PD模型的一个因子)
申请评分卡的特性
  • 稳定性
    • 还款能力和还款意愿在短期内不会发生剧变。当总体违约/逾期概率不变时,分数的分布也应该不变
  • 区分性
    • 违约人群和正常人群的分数应该有明显差异
  • 预测能力
    • 低分人群的违约率更高
  • 评分和逾期概率等价
    • 可以精准的反映违约/逾期概率,反之亦然

这里写图片描述

评分卡模型开发步骤
  1. 立项:确定应用场景、对象和目的
  2. 数据准备与预处理:账户、客群、内部/外部数据
  3. 模型构建
  4. 模型评估:区分度、预测性、平稳性
  5. 验证/审计:是否有计算错误、逻辑错误、业务错误
  6. 模型部署:从开发环境到生产环境、容量、并发度
  7. 模型监控:性能是否减弱,是否需要优化甚至重新开发
申请评分卡常用特征
  1. 个人信息:收入、年龄、性别
  2. 历史行为信息:历史逾期记录
  3. 负债信息:在本金融机构或者其他金融机构负债情况
  4. 消费能力:商品购买纪录,出境游,奢侈品消费
  5. 新兴数据:人际社交 网络足迹 出行 个人财务

非平衡样本问题的定义和解决方法

信用风险:正常用户远多于逾期/违约用户
流失风险:留存用户多于流失用户
平衡的定义:在金融评分数据领域中的负正样本比例在1:20内都算数据样本平衡。其他领域具体分析。

解决方法

这里写图片描述
一些阅读材料
干货|如何解决机器学习中数据不平衡问题
Comparison of balancing techniques for unbalanced datasets
python工具包 imbalance-learn
机器学习中非平衡数据处理
这里写图片描述
这里写图片描述

因为下采样会丢失信息,如何减少信息的损失呢?第一种方法叫做EasyEnsemble,利用模型融合的方法(Ensemble):多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果。第二种方法叫做BalanceCascade,利用增量训练的思想(Boosting):先通过一次下采样产生训练集,训练一个分类器,对于那些分类正确的大众样本不放回,然后对这个更小的大众样本下采样产生训练集,训练第二个分类器,以此类推,最终组合所有分类器的结果得到最终结果。第三种方法是利用KNN试图挑选那些最具代表性的大众样本,叫做NearMiss,这类方法计算量很大,感兴趣的可以参考“Learning from Imbalanced Data”这篇综述的3.2.1节。

  • 8
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值