信用评分问题中一般使用逻辑回归作为主要的模型。过程主要包括变量分箱、变量的WOE(证据权重)变换和变量选择(IV值)、逻辑回归估算。
一个完整的评分卡流程主要包括以下几个步骤:
- 数据准备
- 数据探索性分析
- 数据预处理,包括缺失值、异常值、数据切分
- 特征分箱:
- 特征筛选:IV值
- 单变量分析(IV)和多变量分析(两两相关性)
- 模型训练
- 评分卡构建
- 评分预测
1. 数据准备
数据源主要包含行内行外两部分:行内的有客户的基础人口统计特征数据、交易历史数据、信用历史数据等;
外部数据有人行征信数据、第三方征信机构数据及社交行为数据等。
2. 数据探索
- 对获得的原始数据进行进一步的探索,观察样本的总体分布情况,正负样本是否均衡?
- 单变量分布是否满足正态分布? 变量的缺失情况? 是否有异常值?
- 变量间的共线性情况如何?评分卡模型主要是使用逻辑回归算法进行建模,要求变量间共线性尽可能低。可以采用热力图观察变量间共线性、变量规模。
- 确定数据集分割方法,划分训练集和测试集? --确定坏用户的标准?比如:逾期多久算违约
3. 数据预处理
一般包括缺失值处理,异常值处理,特征共线性
4. 评分卡最优分箱
评分卡最优分箱的具体操作参见上篇博文。分箱结束后,需要对分箱后的变量进行WOE编码。计算公式如下:
W O E i = l n ( b i b / g i g ) WOE_i = ln(\frac{b_i}{b}/\frac{g_i}{g}) WOEi=ln(bbi/gg