一.定义
IV(Infromation Value),信息价值,用来表示特征对目标预测的贡献程度,即特征的预测能力,一般来说,IV值越高,该特征的预测能力越强,信息贡献程度越高。
二.限定条件
IV值的计算有一定的限定条件:
(1)面向的任务必须是有监督的任务;
(2)预测目标必须是二分类的。
三.IV取值区间及常用评价基准
IV值的取值区间为:[0,正无穷)。
IV值取值含义:
(1)IV<0.02:无用特征
(2)0.02<IV<0.1:弱价值特征
(3)0.1<IV<0.3:中价值特征
(4)0.3<IV<0.5:强价值特征
(5)IV>0.5:价值过高,不真实
四.计算方式
由于IV值的计算是以WOE值为基础的,所以计算IV值之前,首先得计算WOE值。
(1)WOE
- WOE定义:Weight Of Evidence,证据权重,表示描述一个可预测的变量与二分类变量之间的关系。
- 使用:在使用WOE之前,需要对变量进行分箱处理,分箱的操作包括:对于连续型变量可以采用:等距分箱,等频分箱,自定义间隔;对于离散型变量,如分箱太多&