IV值和woe
1. 对IV的直观理解
从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。
2. IV的计算
前面我们从感性角度和逻辑层面对IV进行了解释和描述,那么回到数学层面,对于一个待评估变量,他的IV值究竟如何计算呢?为了介绍IV的计算方法,我们首先需要认识和理解另一个概念——WOE,因为IV的计算是以WOE为基础的。
2.1WOE
WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。
要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)。分组后,对于第i组,WOE的计算公式如下:
其中,pyi是这个变量中包含分类为1的客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有分类为1客户的比例,pni是这个组中分类为0的客户占样本中所有分类为0的客户的比例,#yi是这个组中分类为1的客户的数量,#ni是这个组中分类为0的客户的数量,#yT是样本中所有分类为1的客户的数量,#nT是样本中所有分类为0的客户的数量。
从这个公式中我们可以体会到,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。
对这个公式做一个简单变换,可以得到:
变换以后我们可以看出,WOE也可以这么理解,他表示的是当前这个变量中分类为1的客户占全部分类为1客户的比例和这个变量中分类为0的客户占全部分类为0客户的比例的比值,然后再取对数,如果WOE值越大,这个变量中的样本分类为1的可能性就越大,WOE越小,这个变量中的样本为1的可能性就越小。
2.2 IV的计算公式
有了前面的介绍,我们可以正式给出IV的计算公式。对于一个分组后的变量,第i 组的WOE前面已经介绍过,是这样计算的:
同样,对于分组i,也会有一个对应的IV值,计算公式如下:
有了一个变量各分组的IV值,我们就可以计算整个变量的IV值,方法很简单,就是把各分组的IV相加:
其中,n为变量分组个数。
3.3 用实例介绍IV的计算和使用
下面我们通过一个实例来讲解一下IV的使用方式。
3.3.1 实例
假设我们需要构建一个预测模型,这个模型是为了预测公司的客户集合中的每个客户对于我们的某项营销活动是否能够响应,或者说我们要预测的是客户对我们的这项营销活动响应的可能性有多大。假设我们已经从公司客户列表中随机抽取了100000个客户进行了营销活动测试,收集了这些客户的响应结果,作为我们的建模数据集,其中响应的客户有10000个。另外假设我们也已经提取到了这些客户的一些变量,作为我们模型的候选变量集,这些变量包括以下这些(实际情况中,我们拥有的变量可能比这些多得多,这里列出的变量仅仅是为了说明我们的问题):
- 最近一个月是否有购买;
- 最近一次购买金额;
- 最近一笔购买的商品类别;
- 是否是公司VIP客户;
- 假设,我们已经对这些变量进行了离散化,统计的结果如下面几张表所示。
(1) 最近一个月是否有过购买:
(2) 最近一次购买金额:
(3) 最近一笔购买的商品类别:
(4) 是否是公司VIP客户:
3.3.2 计算WOE和IV
我们以其中的一个变量“最近一次购买金额”变量为例:
我们把这个变量离散化为了4个分段:<100元,[100,200),[200,500),>=500元。首先,根据WOE计算公式,这四个分段的WOE分别为:
插播一段,从上面的计算结果中我们可以看一下WOE的基本特点:
当前分组中,响应的比例越大,WOE值越大;
当前分组WOE的正负,由当前分组响应和未响应的比例,与样本整体响应和未响应的比例的大小关系决定,当前分组的比例小于样本整体比例时,WOE为负,当前分组的比例大于整体比例时,WOE为正,当前分组的比例和整体比例相等时,WOE为0。
WOE的取值范围是全体实数。
我们进一步理解一下WOE,会发现,WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。
好,回到正题,计算完WOE,我们分别计算四个分组的IV值:
再插播一段,从上面IV的计算结果我们可以看出IV的以下特点:
- 当前分组中,响应的比例越大,WOE值越大;
- 当前分组WOE的正负,由当前分组响应和未响应的比例,与样本整体响应和未响应的比例的大小关系决定,当前分组的比例小于样本整体比例时,WOE为负,当前分组的比例大于整体比例时,WOE为正,当前分组的比例和整体比例相等时,WOE为0。
- WOE的取值范围是全体实数
对于变量的一个分组,这个分组的响应和未响应的比例与样本整体响应和未响应的比例相差越大,IV值越大,否则,IV值越小;
极端情况下,当前分组的响应和未响应的比例和样本整体的响应和未响应的比例相等时,IV值为0;
IV值的取值范围是[0,+∞),且,当当前分组中只包含响应客户或者未响应客户时,IV = +∞。
好,回到正题,计算完WOE,我们分别计算四个分组的IV值:
再插播一段,从上面IV的计算结果我们可以看出IV的以下特点:
- 对于变量的一个分组,这个分组的响应和未响应的比例与样本整体响应和未响应的比例相差越大,IV值越大,否则,IV值越小;
- 极端情况下,当前分组的响应和未响应的比例和样本整体的响应和未响应的比例相等时,IV值为0;
- IV值的取值范围是[0,+∞),且,当当前分组中只包含响应客户或者未响应客户时,IV = +∞。
OK,再次回到正题。最后,我们计算变量总IV值:
3.3 IV值的比较和变量预测能力的排序
我们已经计算了四个变量中其中一个的WOE和IV值。另外三个的计算过程我们不再详细的说明,直接给出IV结果。
- 最近一个月是否有过购买:0.250224725
- 最近一笔购买的商品类别:0.615275563
- 是否是公司VIP客户:1.56550367
- 前面我们已经计算过,最近一次购买金额的IV为0.49270645
这四个变量IV排序结果是这样的:是否是公司VIP客户 > 最近一笔购买的商品类别 > 最近一次购买金额 > 最近一个月是否有过购买。我们发现“是否是公司VIP客户”是预测能力最高的变量,“最近一个月是否有过购买”是预测能力最低的变量。如果我们需要在这四个变量中去挑选变量,就可以根据IV从高到低去挑选了。
下面写上计算IV值和WOE的代码:
import pandas as pd
import math
def IV(pyi,pni,woe):
return (pyi-pni)*woe
def WOE(loc,y,df):
m=df.groupby([loc]).count()
n=df.groupby([y]).count()
pyi=m.iloc[0][-1]/n.iloc[0][-1]
pni=m.iloc[1][-1]/n.iloc[1][-1]
m=pyi/pni
return pyi,pni,math.log(m,math.e)
data=pd.read_csv("数据集/train.csv")
pyi,pni,woe=WOE("forum_business","hot",data)
iv=IV(pyi,pni,woe)
print(woe,iv)
文章参考:https://blog.csdn.net/iModel/article/details/79420437