为了挑选并构造出对目标变量有较高预测力的自变量,需要对变量进行WOE编码,通过IV值的看变量的贡献。
1、WOE(weight of Evidence 证据权重)
1)解释及公式
WOE是对原始自变量的一种编码形式。
要对一个变量进行WOE编码,需要首先把这个变量进行分组处理/离散化处理(等宽切割,等高切割,或者利用决策树来切割)。分组后,对于第i组,WOE的计算公式如下:
其中:pyi为坏样本占所有坏样本的比例,py0好样本占所有好样本的比例;B为坏样本总数,Bi为变量i对应的坏样本个数,G为好样本总数,Gi为变量i对应的好样本个数 ;
注:将模型目标变量y为1记为违约用户(坏样本),对于目标变量为0记为正常用户(好样本)
2)直观字面理解:
WOE表示的实际上是“当前分组中坏客户占所有坏客户的比例”和“当前分组中好客户占所
有坏客户的比例”的差异。转化公式以后,也可以理解为:当前这个组中坏客户和好客户的比值,和所有样本中这个比值的差异。这个差异为这两个比值的比值,再取对数来表示的。
WOE越大,这种差异越大,这个分组里的样本坏样本可能性就越大,WOE越小,差异越小,这个分组里的坏样本可能性就越小。
3