什么是IV——Information Value
类似于信息增益、基尼指数等,用来衡量特征的预测能力
IV如何计算
以WOE(weight of evidence)为基础,WOE是对原始变量的一种编码形式
上边是一组的IV值,要计算一个特征的IV值将各组IV值求和即可(n为分组个数):
WOE如何计算
需要先对特征进行分组处理(离散化、分箱说的都是一种东西)
翻译一下:
:当前分组中y=1(响应客户、欺诈客户)的样本占所有y=1样本的比例
:所有样本中y=0的样本占所有y=0样本的比例
:组中y=1的样本数量
:所有样本中y=1的数量
:组中y=0的数量
:所有样本中y=0的数量
总结一下:WOE其实就是当前这个组中响应的客户和未响应客户的比值的对数,组中的响应客户数量越多,WOE值就越大。反过来说,WOE值越大,说明该组中样本响应的可能性就越大。
举个例子
最近一次购买金额 | 响应 | 未响应 | 合计 | 响应比例 | WOE |
<100 | 2500 | 47500 | 50000 | 5% | -0.74721 |
[100,200) | 3000 | 27000 | 30000 | 10% | 0 |
[200,500) | 3000 | 12000 | 15000 | 20% | 0.81093 |
>=500 | 1500 | 3500 | 5000 | 30% | 1.349927 |
合计 | 10000 | 90000 | 100000 | 10% | 0 |
用一个分组之后的特征求各组的WOE值,然后计算各组的IV值:
组名 | IV值 |
<100 | 0.20756 |
[100,200) | 0 |
[200,500) | 0.135155 |
>=500 | 0.149992 |
可以看出
- 分组中响应和未响应的比例与样本整体响应和未响应的比例相差越大,IV值越大,否则,IV值越小。
- 分组中响应和未响应的比例与样本整体响应和未响应的比例相等时,IV值为0(100到200)
- IV值的取值范围是[0,+∞),且,当当前分组中只包含响应客户或者未响应客户时,IV = +∞
计算这个特征的IV值:
IV值越大的说明特征的预测能力越强。
注意点:避免极端值的出现,即特征的任何分组中不应出现响应数或非响应数为0的情况,这时IV值为正无穷
若出现极端值的解决办法:
- 如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件;
- 重新对变量进行离散化或分组,使每个分组的响应比例都不为0且不为100%,尤其是当一个分组个体数很小时(比如小于100个),强烈建议这样做,因为本身把一个分组个体数弄得很小就不是太合理。
- 如果上面两种方法都无法使用,建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0,可以人工调整响应数为1,如果非响应数原本为0,可以人工调整非响应数为1.
参考博客:https://blog.csdn.net/kevin7658/article/details/50780391