IV与WOE

什么是IV——Information Value

类似于信息增益、基尼指数等,用来衡量特征的预测能力

IV如何计算

以WOE(weight of evidence)为基础,WOE是对原始变量的一种编码形式

IV_i=(py_i-pn_i)*WOE_i=(py_i-pn_i)*ln(\frac{p_{y_i}}{p_{n_i}})=(\frac{\#y_{i}}{\#y_{T}}-\frac{\#n_{i}}{\#n_{T}})*ln(\frac{\#y_{i}/\#y_{T}}{\#n_{i}/\#n_{T}})

上边是一组的IV值,要计算一个特征的IV值将各组IV值求和即可(n为分组个数):

IV=\sum_{i}^{n}IV_i

WOE如何计算

需要先对特征进行分组处理(离散化、分箱说的都是一种东西)

WOE_i=ln(\frac{p_{y_i}}{p_{n_i}})=ln(\frac{\#y_{i}/\#y_{T}}{\#n_{i}/\#n_{T}})=ln(\frac{\#y_{i}/\#n_{i}}{\#y_{T}/\#n_{T}})

翻译一下:

py_i:当前分组中y=1(响应客户、欺诈客户)的样本占所有y=1样本的比例

pn_i:所有样本中y=0的样本占所有y=0样本的比例

\#y_i:组中y=1的样本数量

\#y_T:所有样本中y=1的数量

\#n_i:组中y=0的数量

\#n_T:所有样本中y=0的数量

总结一下:WOE其实就是当前这个组中响应的客户和未响应客户的比值的对数,组中的响应客户数量越多,WOE值就越大。反过来说,WOE值越大,说明该组中样本响应的可能性就越大。

举个例子

最近一次购买金额响应未响应合计响应比例WOE
<100250047500500005%-0.74721
[100,200)3000270003000010%0
[200,500)3000120001500020%0.81093
>=50015003500500030%1.349927
合计100009000010000010%0

 用一个分组之后的特征求各组的WOE值,然后计算各组的IV值:

组名

IV值

<1000.20756
[100,200)0
[200,500)0.135155
>=5000.149992

可以看出

  1. 分组中响应和未响应的比例与样本整体响应和未响应的比例相差越大,IV值越大,否则,IV值越小。
  2. 分组中响应和未响应的比例与样本整体响应和未响应的比例相等时,IV值为0(100到200)
  3. IV值的取值范围是[0,+∞),且,当当前分组中只包含响应客户或者未响应客户时,IV = +∞

计算这个特征的IV值:

IV=0.20756+0+0.135155+0.149992=0.492706

IV值越大的说明特征的预测能力越强。

 

注意点:避免极端值的出现,即特征的任何分组中不应出现响应数或非响应数为0的情况,这时IV值为正无穷

若出现极端值的解决办法:

  1. 如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件;
  2. 重新对变量进行离散化或分组,使每个分组的响应比例都不为0且不为100%,尤其是当一个分组个体数很小时(比如小于100个),强烈建议这样做,因为本身把一个分组个体数弄得很小就不是太合理。
  3. 如果上面两种方法都无法使用,建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0,可以人工调整响应数为1,如果非响应数原本为0,可以人工调整非响应数为1.

参考博客:https://blog.csdn.net/kevin7658/article/details/50780391

                  https://blog.csdn.net/mydear_11000/article/details/82081133

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值