「风控ML」系列文章,主要是分享一下自己多年以来做金融风控的一些事一些情,当然也包括风控建模、机器学习、大数据风控等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!
第一次接触这两个名词是在做风控模型的时候,老师教我们可以用IV去做变量筛选,IV(Information Value),中文名是信息值,简单来说这个指标的作用就是来衡量变量的预测能力强弱的,然后IV又是WOE算出来的。姑且先不管原理哈,我们先给出来一下结论。
IV范围 | 变量预测力 |
---|---|
<0.02 | 无预测力😯 |
0.02~0.10 | 弱👎 |
0.10~0.30 | 中等😊 |
`> 0.30 | 强👍 |
虽然可能这个指标还是很容易就可以使用,但是了解它的原理是十分重要的,这对于我们深入理解变量有很大的帮助。
在开始讲原理前,先约定一下今天会用到的一些代号。
: 第i组中响应客户数量
: 全部响应客户数量总和
:第i组中未响应客户数量
:全部未响应客户数量总和
响应/未响应:指的是自变量每个记录对应的目标变量的值,目标变量的值为0或1,一般如果1为响应的话,0就是未响应。
:第i组的IV值
:等于
:等于
可以看看下面的表格理解一波,变量A是一个连续型变量,值域是v1-vx,当前根据某些分箱方式分成了m组,具体的分组情况如下所示:
01 WOE的原理
WOE是weight of evidence的缩写,是一种编码形式,首先我们要知道WOE是针对类别变量而言的,所以连续性变量需要提前做好分组(这