今天来讲一下IV值的计算问题
因本人从事风控建模行业,故不可避免需要明白IV值的整个今生前世,故此次来讲解IV值。
一、IV的定义及必备常见知识
IV是什么?全称是Information Value,中文意思是信息价值,或者信息量。
那它有什么内在含义呢?网上公认的答案:变量的预测能力。且通常来讲,变量的IV值越高,则该变量的预测能力越强
这就对选取哪些x进行建模,起到了关键的作用了,但是IV也有其限制的范围。
首先、模型必须是有监督模型(即有y标签变量),其次、y标签必须是二分类(即y只有两类y1,y2)
常见的IV取值范围代表意思如下:
若IV在(-∞,0.02]区间,视为无预测力变量
若IV在(0.02,0.1]区间,视为较弱预测力变量
若IV在(0.1,+∞)区间,视为预测力可以,而实际应用中,也是保留IV值大于0.1的变量进行筛选。
二、IV计算过程
在了解IV计算过程之前,必须明白另一个概念"WOE"
WOE的全称是“Weight of Evidence”,即证据权重。计算公式为: