IV值小结

0 引言

在金融场景中,IV值是一个经常用来衡量特征强弱的指标。IV值如果比较大,说明该特征的区分度比较强,如果IV值比较小则说明特征的区分度比较弱。正因为有该性质,所以IV值经常用来进行特征选择。

1.WOE

在介绍IV值之前,需要先介绍一下WOE
WOE, Weight Of Evidence,直译过来就是证据权重。WOE是对原始变量的一种编码方式。计算的具体步骤主要包括两步
1.对变量分组,一般的方式为分箱或者离散化处理。比如常见的分箱方法有等频分箱,等高分箱等。
2.分箱以后,对于第i组,计算该组的woe(i)值。
w o e i = l n ( p y i p n i ) = l n ( y i / y s n i / n s ) woe_i = ln(\frac{p_{yi}}{p_{ni}}) = ln(\frac{y_i/y_s}{n_i/n_s}) woei=ln(pnipyi)=ln(ni/nsyi/ys)
其中, y i y_i yi表示分组中的响应用户, y s y_s ys表示总响应用户。 n i n_i ni表示分组中的未响应用户, n s n_s ns表示总未响应用户。

2.IV值计算

IV衡量的是某一个变量的信息量。 对于分组i的IV值,具体的计算公式如下
I V i = ( p y i − p n i ) ∗ w o e i = ( p y i − p n i ) ∗ l n ( p y i p n i ) = ( y i / y s − n i / n s ) ∗ l n ( y i / y s n i / n s ) \begin{aligned} IV_i&=(p_{yi} - p_{ni}) * woe_i \\ &=(p_{yi} - p_{ni})* ln(\frac{p_{yi}}{p_{ni}}) \\ & = (y_i/y_s - n_i/n_s) * ln(\frac{y_i/y_s}{n_i/n_s}) \end{aligned} IVi=(pyipni)woei=(pyipni)ln(pnipyi)=(yi/ysni/ns)ln(ni/nsyi/ys)

那么整个变量的IV值为
I V = ∑ i n I V i IV = \sum_i^n IV_i IV=inIVi

3.为什么使用IV值而不是WOE

WOE 和 IV 都能表达某个分组对目标变量的预测能力。那为什么我们实际使用的都是IV而不是WOE呢?
1.WOE有可能是负值,而IV值永远为正,实际场景中我们不太可能使用一个可能为负值的指标。
2. p y i − p n i p_{yi} - p_{ni} pyipni这个数值,体现了当前分组样本在整体中的占比,相当于给当前样本的区分能力乘以了一个权重。这个权重越大,对应的区分度也就越高,对整体的贡献也就越突出。

4.需要注意的几个点

1.IV值并不是越大越好。IV过大,很可能是分箱不当所引起的,这个时候需要对数据进行重新分箱操作。
2.如果按照原始的公式进行计算,分箱操作时,某个组的数据不能为0,否则做除法运算时会触发异常。
3.实际项目操作过程中,一般选择0.2作为阈值。如果某个特征的IV值小于0.2,说明区分度不太够,该特征不予采用。

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值