IV与WOE

最新推荐文章于 2023-06-05 10:24:26 发布

投篮不准的程序员不是一个好车手

最新推荐文章于 2023-06-05 10:24:26 发布

阅读量454

点赞数 1

分类专栏：总结文章标签： WOE 评分卡数据挖掘

本文链接：https://blog.csdn.net/weixin_39003567/article/details/102151933

版权

总结专栏收录该内容

4 篇文章 0 订阅

订阅专栏

什么是IV——Information Value

类似于信息增益、基尼指数等，用来衡量特征的预测能力

IV如何计算

以WOE（weight of evidence）为基础，WOE是对原始变量的一种编码形式

$IV_i=(py_i-pn_i)*WOE_i=(py_i-pn_i)*ln(\frac{p_{y_i}}{p_{n_i}})=(\frac{\#y_{i}}{\#y_{T}}-\frac{\#n_{i}}{\#n_{T}})*ln(\frac{\#y_{i}/\#y_{T}}{\#n_{i}/\#n_{T}})$

上边是一组的IV值，要计算一个特征的IV值将各组IV值求和即可（n为分组个数）：

$IV=\sum_{i}^{n}IV_i$

WOE如何计算

需要先对特征进行分组处理（离散化、分箱说的都是一种东西）

$WOE_i=ln(\frac{p_{y_i}}{p_{n_i}})=ln(\frac{\#y_{i}/\#y_{T}}{\#n_{i}/\#n_{T}})=ln(\frac{\#y_{i}/\#n_{i}}{\#y_{T}/\#n_{T}})$

翻译一下：

py_i :当前分组中y=1（响应客户、欺诈客户）的样本占所有y=1样本的比例

pn_i ：所有样本中y=0的样本占所有y=0样本的比例

$\#y_i$ ：组中y=1的样本数量

$\#y_T$ :所有样本中y=1的数量

$\#n_i$ ：组中y=0的数量

$\#n_T$ ：所有样本中y=0的数量

总结一下：WOE其实就是当前这个组中响应的客户和未响应客户的比值的对数，组中的响应客户数量越多，WOE值就越大。反过来说，WOE值越大，说明该组中样本响应的可能性就越大。

举个例子

最近一次购买金额	响应	未响应	合计	响应比例	WOE
<100	2500	47500	50000	5%	-0.74721
[100,200)	3000	27000	30000	10%	0
[200,500)	3000	12000	15000	20%	0.81093
>=500	1500	3500	5000	30%	1.349927
合计	10000	90000	100000	10%	0

用一个分组之后的特征求各组的WOE值，然后计算各组的IV值：

组名	IV值
<100	0.20756
[100,200)	0
[200,500)	0.135155
>=500	0.149992

可以看出

分组中响应和未响应的比例与样本整体响应和未响应的比例相差越大，IV值越大，否则，IV值越小。
分组中响应和未响应的比例与样本整体响应和未响应的比例相等时，IV值为0（100到200）
IV值的取值范围是[0,+∞)，且，当当前分组中只包含响应客户或者未响应客户时，IV = +∞

计算这个特征的IV值：

IV=0.20756+0+0.135155+0.149992=0.492706

IV值越大的说明特征的预测能力越强。

注意点：避免极端值的出现，即特征的任何分组中不应出现响应数或非响应数为0的情况，这时IV值为正无穷

若出现极端值的解决办法：

如果可能，直接把这个分组做成一个规则，作为模型的前置条件或补充条件；
重新对变量进行离散化或分组，使每个分组的响应比例都不为0且不为100%，尤其是当一个分组个体数很小时（比如小于100个），强烈建议这样做，因为本身把一个分组个体数弄得很小就不是太合理。
如果上面两种方法都无法使用，建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0，可以人工调整响应数为1，如果非响应数原本为0，可以人工调整非响应数为1.

参考博客：https://blog.csdn.net/kevin7658/article/details/50780391

https://blog.csdn.net/mydear_11000/article/details/82081133