>公安项目有签订保密协议,敏感字段和与技术无关字段我已删减
采用的是 信用评分卡模型,计算WOE值获得最终评分。
所有计算过程在ODPS中完成!
1.“Y”变量定义
为了综合评估普通驾驶员的道路交通能力,此次建模的目标为驾驶员是否有发生事故,若有则为坏样本,整体的坏样本率为1.314%,通过统计可以发现:
是否发生事故 | 计数 |
0 | 296058 |
1 | 3942 |
总计 | 300000 |
2.建模算法
现在采用的是WOE变量方式建模进行驾驶员评分,首先是获得各指标woe值,公式:
(bi:指标i纬度坏样本数,bc:总坏样本数,gi:指标i纬度好样本数,gc:总好样本数);
然后获得初始分数(0-1之间):
(woej:j指标woe值)
根据讨论结果,最低分取30分,做相应线性变换,得到真实分数:
3.单字段性能—IV指标
进一步验证各字段的IV值:
得到结果如下:
序号 | IV值 |
1 | 0.31722 |
2 | 0.27158 |
3 | 0.25169 |
4 | 0.19057 |
5 | 0.13439 |
6 | 0.09315 |
7 | 0.09128 |
8 | 0.08199 |
9 | 0.07267 |
10 | 0.0669 |
11 | 0.04222 |
12 | 0.02809 |
13 | 0.02797 |
14 | 0.02783 |
15 | 0.02665 |
16 | 0.02352 |
17 | 0.02059 |
18 | 0.01752 |
19 | 0.01541 |
20 | 0.01458 |
21 | 0.01439 |
22 | 0.01439 |
23 | 0.01439 |
24 | 0.01439 |
25 | 0.0134 |
26 | 0.00827 |
27 | 0.00383 |
28 | 0.00139 |
29 | 0.00132 |
30 | 0.00044 |
31 | 0.00025 |
IV是全称InformationValue,是衡量单自变量对于应变量显著程度的指标,通常IV值越高,变量的显著性越强;
此模型变量中IV值大于0.05以上的变量超过10个。
4.模型整体性能--KS指标
通过整体的评估,模型整体的KS指标如下:
KS = 0.303768
注:KS指标衡量的是好样本和坏样本的累计分布比例之间具体最大的差距。好样本和坏样本之间的距离越大,KS指标范围在0%-100%之间,KS指标越高,模型的区分能力越强;
该模型的KS达到30%+,性能OK。
5.模型整体性能—ROC指标
经计算:
AUC=0.703637
注:ROC曲线及AUC系数为评估模型对客户进行正确区分的指标。ROC曲线描述了在一定累计好客户比例下的累计坏客户的比例, ROC曲线越往左上角靠近,模型的分别能力越强。AUC系数为ROC曲线下方的面积,数值范围在0.5-1之间,AUC系数越高,模型的区分能力越强。
该模型的AUC>=0.7,性能较好。