评分卡模型剖析之一(woe、IV、ROC、信息熵)
信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。
本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明。
Woe公式如下:
Age
#bad
#good
Woe
0-10
50
200
=ln((50/100)/(200/1000))=ln((50/200)/(100/1000))
10-18
20
200
=ln((20/100)/(200/1000))=ln((20/200)/(100/1000))
18-35
5
200
=ln((5/100)/(200/1000))=ln((5/200)/(100/1000))
35-50
15
200
=ln((15/100)/(200/1000))=ln((15/200)/(100/1000))
50以上
10
200
=ln((10/100)/(200/1000))