信用卡评分模型学习笔记总结

本文介绍了信贷评分卡的三种类型:申请评分卡、行为评分卡和催收评分卡,强调了模型在预测违约概率中的作用。申请评分卡的构建涉及数据预处理、特征构造、选择和模型估计,常用特征包括个人信息、负债、消费能力和历史信用记录等。特征处理中,介绍了分箱方法如Best-KS和卡方分箱,以及WOE编码。模型评价标准包括KS、AUC和PSI等。此外,还讨论了行为评分卡和催收评分卡的变量构造和模型开发过程。
摘要由CSDN通过智能技术生成

一些基本概念
M1,M2,M3,…
M表示月份,简单理解逾期多少个月了
评分卡类型
反欺诈评分卡,申请评分卡,行为评分卡,催收评分卡
是对未来一段时间内违约/逾期/失联概率的预测,概率越高,分数越低,越不安全。

一.申请评分卡模型
用在申请环节,以申请当日及过去信息为基础,预测未来放款的违约概率。
申请评分卡常用的特征
个人信息:学历 性别 收入
负债信息:在本金融机构或其他机构的负债情况
消费能力:商品购买记录
历史信用记录:历史逾期行为
新兴数据:人际社交,网络足迹,出行
非平衡样本的解决方法
过采样 容易过拟合
欠采样 容易丢失信息
SMOTE算法 不能对有缺失值和类别变量做处理
SMOTE算法介绍:
采样K近邻
从K近邻中随机挑选N个样本进行随机线性插值
new=xi+rand(0,1)*(yj-xi),j=1…N
其中xi为少类中的一个观测点,yj为从K近邻中随机抽取的样本。
申请评分卡的模型构造过程
1.数据预处理:时间格式,缺失值,极值
2.特征构造:计数,比例,距离
3.特征选择:相关性 差异性 显著性
4.模型参数估计:回归系数 模型复杂度
数据预处理:
带%的百分比,需要转化为浮点数
日期格式需要转化为python的时间
工作年限中将“<1year ”转化为0 “>10years”转化为11
文本类数据的处理:主题提取
缺失值处理
补缺 或者 作为一种状态
构建特征:
计数:过去1年内申请贷款的次数
求和:过去1年内网店消费总额
比例:贷款申请额度占年收入比例
时间差:第一次开户距今时长
波动率:过去3年内每份工作的工作时间标准差
特征分箱
将连续变量离散化或者把多状态的离散变量合并成少状态
一方面避免特征中无意义的波动对评分带来的波动,使其更加稳定。
另一方面避免了极端值的影响。同时可以将缺失值作为独立的一个箱
将所有变量变换到相似的尺度

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值