一、评分卡模型介绍
- 评分卡模型是常用的金融风控手段之一
-
风控,就是风险控制,我们采取各种措施和方法,减少风险发生的可能性,或风险发生时造成的损失
- 根据客户的各种属性和行为数据,利用信用评分模型,对客户的信用进行评分,从而决定是否给予授信,授信的额度和利率,减少在金融交易中存在的交易风险
- 按照不同的业务阶段,可以划分为三种:
- 贷前:申请评分卡(Application score card),称为A卡
-
贷中:行为评分卡(Behavior score card),称为B卡
-
贷后:催收评分卡(Collection score card),称为C卡
二、评分卡模型执行步骤
- Step1,数据获取,包括获取存量客户及潜在客户的数据存量客户,已开展融资业务的客户,包括个人客户和机构客户;潜在客户,将要开展业务的客户
- Step2,EDA,获取样本整体情况,进行直方图、箱形图可视化
- Step3,数据预处理,包括数据清洗、缺失值处理、异常值处理
- Step4,变量筛选,通过统计学的方法,筛选出对违约状态影响最显著的指标。主要有单变量特征选择和基于机器学习的方法
- Step5,模型开发,包括变量分段、变量的WOE(证据权重)变换和逻辑回归估算三个部分
- Step6,模型评估,评估模型的区分能力、预测能力、稳定性,并形成模型评估报告,得出模型是否可以使用的结论
- Step7,生成评分卡(信用评分),根据逻辑回归的系数和WOE等确定信用评分的方法,将Logistic模型转换为标准评分的形式
- Step8,建立评分系统(布置上线),根据生成的评分卡,建立自动信用评分系统
三、WOE编码
WOE编码:
- Weight of Evidence,证据权重
- 是自变量的一种编码,常用于特征变换用来衡量自变量与因变量的相关性
B代表风险客户,G代表正常客户
对于某一变量某一分组的WOE,衡量了这组里面的好坏客户的占比与整体样本好坏样本占比的差异
WOE计算:
- 对于连续型变量,分成N个bins
- 对于分类型变量保持类别group不变
- 计算每个bin or group中event和non-event的百分比
WOE的作用:
- 可以将连续型变量转化为woe的分类变量
- 可以对相似的bin或group进行合并(woe相似)
- 每个bin or group记录不能过少,至少有5%的记录
- 不要用过多的bin or group,会导致不稳定性
四、odds Ratio(RO)
- Odds,指胜率(优势),即事件发生与不发生的比例,即
- 假设事件为客户逾期,即Y=1。那么 Age=Age1时的Odds为
- Odds Ratio为两个Odds的比值,比如Age1和Age2之间的Odds Ration(OR)
OR在Logistic回归中的意义:
- Odds与 Odds Ratio(OR)在Logistic中很重要,因为和可解释性相关
- 在Logistic回归中
Thinking:Odss Ration(OR)的物理含义=?
当Xi增加1时,odds会变为原来的 倍