一些基本概念
M1,M2,M3,…
M表示月份,简单理解逾期多少个月了
评分卡类型
反欺诈评分卡,申请评分卡,行为评分卡,催收评分卡
是对未来一段时间内违约/逾期/失联概率的预测,概率越高,分数越低,越不安全。
一.申请评分卡模型
用在申请环节,以申请当日及过去信息为基础,预测未来放款的违约概率。
申请评分卡常用的特征
个人信息:学历 性别 收入
负债信息:在本金融机构或其他机构的负债情况
消费能力:商品购买记录
历史信用记录:历史逾期行为
新兴数据:人际社交,网络足迹,出行
非平衡样本的解决方法
过采样 容易过拟合
欠采样 容易丢失信息
SMOTE算法 不能对有缺失值和类别变量做处理
SMOTE算法介绍:
采样K近邻
从K近邻中随机挑选N个样本进行随机线性插值
new=xi+rand(0,1)*(yj-xi),j=1…N
其中xi为少类中的一个观测点,yj为从K近邻中随机抽取的样本。
申请评分卡的模型构造过程
1.数据预处理:时间格式,缺失值,极值
2.特征构造:计数,比例,距离
3.特征选择:相关性 差异性 显著性
4.模型参数估计:回归系数 模型复杂度
数据预处理:
带%的百分比,需要转化为浮点数
日期格式需要转化为python的时间
工作年限中将“<1year ”转化为0 “>10years”转化为11
文本类数据的处理:主题提取
缺失值处理
补缺 或者 作为一种状态
构建特征:
计数:过去1年内申请贷款的次数
求和:过去1年内网店消费总额
比例:贷款申请额度占年收入比例
时间差:第一次开户距今时长
波动率:过去3年内每份工作的工作时间标准差
特征分箱
将连续变量离散化或者把多状态的离散变量合并成少状态
一方面避免特征中无意义的波动对评分带来的波动,使其更加稳定。
另一方面避免了极端值的影响。同时可以将缺失值作为独立的一个箱
将所有变量变换到相似的尺度