信用卡评分模型学习笔记总结

最新推荐文章于 2024-07-28 00:28:18 发布

huipingx

最新推荐文章于 2024-07-28 00:28:18 发布

阅读量7.2k

点赞数 8

分类专栏：金融信贷风险中的机器学习

本文链接：https://blog.csdn.net/huipingx/article/details/85225711

版权

本文介绍了信贷评分卡的三种类型：申请评分卡、行为评分卡和催收评分卡，强调了模型在预测违约概率中的作用。申请评分卡的构建涉及数据预处理、特征构造、选择和模型估计，常用特征包括个人信息、负债、消费能力和历史信用记录等。特征处理中，介绍了分箱方法如Best-KS和卡方分箱，以及WOE编码。模型评价标准包括KS、AUC和PSI等。此外，还讨论了行为评分卡和催收评分卡的变量构造和模型开发过程。

摘要由CSDN通过智能技术生成

一些基本概念
M1，M2，M3，…
M表示月份，简单理解逾期多少个月了
评分卡类型
反欺诈评分卡，申请评分卡，行为评分卡，催收评分卡
是对未来一段时间内违约/逾期/失联概率的预测，概率越高，分数越低，越不安全。

一.申请评分卡模型
用在申请环节，以申请当日及过去信息为基础，预测未来放款的违约概率。
申请评分卡常用的特征
个人信息：学历性别收入
负债信息：在本金融机构或其他机构的负债情况
消费能力：商品购买记录
历史信用记录：历史逾期行为
新兴数据：人际社交，网络足迹，出行
非平衡样本的解决方法
过采样容易过拟合
欠采样容易丢失信息
SMOTE算法不能对有缺失值和类别变量做处理
SMOTE算法介绍：
采样K近邻
从K近邻中随机挑选N个样本进行随机线性插值
new=xi+rand(0,1)*(yj-xi),j=1…N
其中xi为少类中的一个观测点，yj为从K近邻中随机抽取的样本。
申请评分卡的模型构造过程
1.数据预处理：时间格式，缺失值，极值
2.特征构造：计数，比例，距离
3.特征选择：相关性差异性显著性
4.模型参数估计：回归系数模型复杂度
数据预处理：
带%的百分比，需要转化为浮点数
日期格式需要转化为python的时间
工作年限中将“<1year ”转化为0 “>10years”转化为11
文本类数据的处理：主题提取
缺失值处理
补缺或者作为一种状态
构建特征：
计数：过去1年内申请贷款的次数
求和：过去1年内网店消费总额
比例：贷款申请额度占年收入比例
时间差：第一次开户距今时长
波动率：过去3年内每份工作的工作时间标准差
特征分箱
将连续变量离散化或者把多状态的离散变量合并成少状态
一方面避免特征中无意义的波动对评分带来的波动，使其更加稳定。
另一方面避免了极端值的影响。同时可以将缺失值作为独立的一个箱
将所有变量变换到相似的尺度