基于逻辑回归模型的评分卡构建

LR模型对进入模型变量的要求
1、变量间不存在较强的线性相关性和多重共线性
2、变量具有显著性
3、变量具有合理的业务含义,符合业务逻辑

第1点,可以使用单变量分析和多变量分析得到一定的约束,但是未必充分;
第2点,从系数的P值进行检验;
第3点,从系数的符号进行检验。


变量的显著性
为了获取与目标变量有较高相关性的变量,要求最终入模的变量的系数的P值很小,例如低于0.1。如果发现模型中某些变量不显著,需要检验一下两种可能性:
1、该变量本身不显著;
2、该变量显著,但是由于有一定的线性相关性或者多重共线性,导致该变量在多元回归下不显著。
先检验1的可能性,如果排除,再检验2

检验1的方法:
将该变量单独与目标变量做逻辑回归模型,如果在单变量回归的情况下,系数的P值仍然较高,即表明该变量本身的显著性较低。

注:对于IV值较高的变量,1的可能性较低。

变量的正确性
在WOE的计算公式中,

W O E i = log ⁡ ( G o o d i / G o o d t o t a l B a d i / B a d t o t a l ) = = log ⁡ ( G o o d i B a d i ) − log ⁡ ( G o o d t o t a l B a d t o t a l ) WOE_i = \log\left(\frac{Good_{i}/Good_{total}}{Bad_{i}/Bad_{total}}\right)==\log\left(\frac{Good_{i}}{Bad_{i}}\right)-\log\left(\frac{Good_{total}}{Bad_{total}}\right) WOEi=log(Badi/BadtotalGoodi/Goodtotal)==log(BadiGoodi)log(BadtotalGoodtotal)
当WOE为负时,表明当前箱的”危险性“高于平均样本的”危险性“,出现坏样本的概率更高,因此在逻辑回归模型中,所有变量对应的系数应该为负。

反之,如果采取的WOE的计算公式为:
W O E i = log ⁡ ( B a d i / B a d t o t a l G o o d i / G o o d t o t a l ) = = log ⁡ ( B a d i G o o d i ) − log ⁡ ( B a d t o t a l G o o d t o t a l ) WOE_i = \log\left(\frac{Bad_{i}/Bad_{total}}{Good_{i}/Good_{total}}\right)==\log\left(\frac{Bad_{i}}{Good_{i}}\right)-\log\left(\frac{Bad_{total}}{Good_{total}}\right) WOEi=log(Goodi/GoodtotalBadi/Badtotal)==log(GoodiBadi)log(GoodtotalBadtotal)
同理,所有变量对应的系数应该为正。


评分卡分数转化
由概率转化为分数需要满足如下条件:
(1)样本总的分数是由每个变量的分数之和累加得到;
(2)模型预测概率的变化会引起分值以某一单位刻度发生变化;
(3)每个样本的取值发生变化会引起样本分值的改变。

为了满足条件(1),而引入几率(Odds)的定义,Odds可以衡量模型预测结果为正例可能性的大小。
O d d s = p 1 − p Odds = \frac {p}{1-p} Odds=1pp
p为模型预测正样本的概率。

l o g p 1 − p = w T x = w 0 + w 1 x 1 + . . . + w n x n log\frac{p}{1-p}=w^Tx=w_0 + w_1x_1 +... + w_nx_n log1pp=wTx=w0+w1x1+...+wnxn
等式左边是模型输出概率的对数几率,而等式右边是不同变量的线性加权表示,这正是条件(1)需要寻找的一种解决办法,巧妙地将概率相关表达映射为变量加权的方式。

S c o r e = A − B l o g ( O d d s ) = A − B ( w 0 + w 1 x 1 + . . . + w n x n ) Score = A - Blog(Odds)= A - B(w_0 + w_1x_1 +... + w_nx_n) Score=ABlog(Odds)=AB(w0+w1x1+...+wnxn)
其中,A称为补偿,B称为刻度

变量的分值计算

评分卡模型性能评估

常用的审批策略包括:坏账率与通过率的审批策略,双卡审批策略

模型的在线监控
1、稳定性监控:PSI指标
2、单调性监控:Kendall’s Tau指标
3、性能监控指标:KS值、AUC值、AR值、Recall、Precision等

模型上线监控指标

指标类别指标名称指标偏好
稳定性指标PSI越小越好
单调性指标Kendall’s Tau值越接近1越好
性能指标KS、AUC、AR、Recall、Precision等越接近模型开发时越好
业务指标坏账率、通过率越接近模型开发时越好
相关推荐
©️2020 CSDN 皮肤主题: 1024 设计师:白松林 返回首页