IV(informaiton Value)
IV的概念
IV全程是informaiton Value,中文意思是信息价值,或者信息量。
在逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把2000个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表,那么如何挑选入模变呢?
挑选入模变量要考虑很多的因素,如“变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性等”,但其中最主要和直接的衡量标准是变量的预测能力
IV这一指标就是用来衡量自变量的预测能力(衡量自变量对目标变量影响程度的指标),类似的指标还有信息增益、基尼系数等
IV的直观理解
假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,需要一定的信息,假定信息总量是I,而这些信息蕴含在自变量C1,C2,C3...,Cn中,那么对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量
IV的计算
要继续IV的值,首先需要知道WOE
WOE的公式
同样,对于分组i,也会有一个对应的iv值,计算公式如下
有了一个变量各分组的iv值,我们就可以计算整个变量的iv值,方法很简单,就是把各分组的IV相加:
其中,n为变量分组个数(即分箱后有多少组)
WOE(Weight of Evidence)
WOE的全称是“Weight of Evidence”,及证据权重,WOE是对原始自变量的一种编码形式
要对一个变量进