一:模型分数效用指标
对于训练出来的Score Model,需要一系列指标对Model进行关于稳定性、区分能力等效用来度量。
2. GINI(基尼系数)
KS指标理解起来很方便,运用场景也非常多,但大家对于Gini这个指标经常是一知半解。
Gini系数是国际上通用的,用以衡量一个国家或地区居民收入差距的常用指标,所以,运用在评分模型中它也是表征评分模型的区分能力。
Gini的计算公式(虽然我知道没几个人愿意看这个破公式,但我还是愿意贴出来,用以提醒这个Gini和基尼不纯度的本质区别)
cpY是收入排序后的累计比例,cpX是人口的累积比例,其结果是一个秩相关系数,很多统计软件包比如SAS提供的Some’s D其实就是Gini系数。
在评分卡中,可以看下面表来理解下Gini的计算过程
其中,G_num代表好客户数量,B_num代表坏客户数量,Retain代表累积。
虽然Gini指标与Ks一样也是金融评分模型界通用的核心指标,但是它的使用也是有一些需要注意的地方:
1) 评估评分卡的区分能力时,如果坏客户的定义不是那么严格,Gini系数对应代表的区分能力可能被夸大效果;
2) Gini对目标变量类别的定义比较敏感,比如账户的好坏。
所以要想Gini指标精确有效,那么目标变量Y的定义在评分卡开发初期是十分重要和严谨的步骤。
Gini系数的不同范围值对应的评分模型区分能力高低也不一样,行业内也没有一个绝对标准,小编经验认为:
针对评分卡集来说,申请评分卡集的通识标准:
1) Gini<0.3,模型不太能接受;
2) 0.3<=Gini<0.35,模型区分能力一般,模型有优化空间;
3) 0.35<=Gini<=0.5,模型区分能力比较满意;
4) Gini>0.5,Gini越高越有过拟的可能性;
行为评分卡集的通史标准:
1) Gini可能会超过0.8;
2) Gini<0.6,可能模型有问题。
当然了,对于单一评分卡模型的话,Gini的接受浮动就比较大了,比如某一特定场景开发出的申请评分卡,因为IV高于0.1的变量本身就很少了,这个时候的Gini标准就不再需要采用通识标准了。
SAS软件代码可以直接用SMDRC调出Gini结果,Python和R大家要按照公式写一下计算过程哦!
微信公众号搜索:「 金科应用研院」
可以从菜单栏点击「在线学习」
更多风控资讯与干货学习资料,都在微信公众号
回复关键字: 「风控量化福利包」➡️领取干货学习资料
回复任意词可以加我们官方微信加入风控学习群
不定期分享干货PPT,一起讨论风控经验~