数据风控建模的流程与步骤

1.业务理解

业务的理解是做好模型的前提,才能更好的指标模型的方向,一般包括以下几个方面:
1.建模的目的及目标
2.好坏标签的确定
3.时间窗口的确定
4.建模的时间周期

2.数据准备与预处理

1.需要获取哪些数据,如何获取
2.数据的时间格式、特殊格式的处理
3.数据的极值/异常值(箱线图和分位数)
4.数据的缺失值(完全随机缺失、随机缺失、完全非随机缺失),补缺或作为一种状态
5.文本数据——主题提取NPL,优点准确详细,对风险评估非常有效,但缺点事需要足够多的训练样本
6.特征编码,优点:简单方便,易于处理,缺点:信息丢失很高,影响后续模型的效果

3.描述性统计分析

1.数据的整体概况,数据的种类、缺失、覆盖等情况
2.各变量的分布情况,最小值、最大值、均值、中位数,分位数等
3.特殊值的情况,如0值,缺失值,负值,异常值等

4.特征构造与衍生

1.计数法
2.求和法(求和、平均、最大、最小、方差、标准差等)
3.比例/比值法
4.时间差
5.波动率:选择过去1年个月份提前还款时间的方差、标准差
如:FRM模型法,通过交易的次数、交易的金额、交易时间段间隔进行构造变量

在这里插入图片描述

5.特征筛选

1.相关性,剔除相关性过高的变量
2.差异性,样本需要好坏样本间有一定的区分度
3.显著性,可通过变量IV值、特征重要度等指标衡量
4.稳定性,稳定性的重要性大于显著性和差异性

6.模型的训练与评估

1.评分卡模型
1)确定回归系数
2)逐步回归(向前、向后、向前向后等)
3)交叉验证与模型效果评估
4)确定回归方程及最终入模变量
5)概率与评分的转化

2.机器学习、深度学习模型
1)模型的训练,参数调优
2)交叉验证、模型效果评估,确定最终入模变量
3)概率预测,与评分的转化

7.模型的部署及上线
8.模型的监控与优化

1.入模变量与模型评分的稳定性psi
2.模型的区分效果等

9.模型报告的撰写
  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值