分计算iv值_特征锦囊:彻底了解一下WOE和IV

本文详细介绍了WOE(Weight of Evidence)和IV(Information Value)的概念及其在变量筛选中的作用。通过实例展示了如何计算WOE和IV,包括在Python中的实现,帮助读者深入理解这两个概念并应用于实际数据处理和预测模型中。
摘要由CSDN通过智能技术生成

77a3ea6fe1c824ccc76db8563164f99b.png

今日锦囊

特征锦囊:彻底了解一下WOE和IV

第一次接触这两个名词是在做风控模型的时候,老师教我们可以用IV去做变量筛选,IV(Information Value),中文名是信息值,简单来说这个指标的作用就是来衡量变量的预测能力强弱的,然后IV又是WOE算出来的。姑且先不管原理哈,我们先给出来一下结论。

IV范围 变量预测力
<0.02 无预测力?
0.02~0.10 弱?
0.10~0.30 中等?
`> 0.30 强?

虽然可能这个指标还是很容易就可以使用,但是了解它的原理是十分重要的,这对于我们深入理解变量有很大的帮助。

在开始讲原理前,先约定一下今天会用到的一些代号。

: 第i组中响应客户数量

: 全部响应客户数量总和

:第i组中未响应客户数量

:全部未响应客户数量总和

响应/未响应:指的是自变量每个记录对应的目标变量的值,目标变量的值为0或1,一般如果1为响应的话,0就是未响应。

:第i组的IV值

:等于

:等于

可以看看下面的表格理解一波,变量A是一个连续型变量,值域是v1-vx,当前根据某些分箱方式分成了m组,具体的分组情况如下所示:

e1c8b328e16d5a8f18fd29fb2412ef62.png

? WOE的原理

WOE是weight of evidence的缩写,是一种编码形式,首先我们要知道WOE是针对类别变量而言的,所以连续性变量需要提前做好分组(这里也是一个很好的考点,也有会说分箱、离散化的,变量优化也可以从这个角度出发)。

先给出数学计算公式,对于第i组的WOE可以这么计算:

从公式上可以看出,第i组的WOE值等于这个组的响应客户占所有响应客户的比例与未响应客户占所有未响应客户的比例的比值取对数。对于上面的公式我们还可以 简单做一下转化:

所以,WOE主要就是体现组内的好坏占比与整体的差异化程度大小,WOE越大,差异越大。

? IV的原理

上面我们介绍了如何计算一个分组的WOE值,那么我们就可以把变量所有分组的WOE值给算出来了,对应地,每个分组也有一个IV值,我们叫   ,其中:

计算这个变量的IV值就是这样子就可以了,把每个分组的IV值给加起来。

? 实际案例

好了,上面的理论也讲了一些了,还是拿一个实际的变量来计算一下。

我们来假设一个场景,我们需要卖茶叶,然后我们不知道从哪里拿来了一份1000人的营销名单(手机号码),然后就批量添加微信好友,最后有600个手机号码可以成功搜索到微信号的,进而进行了好友添加,最终有100人成功添加到好友了。

我们这份名单

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值