![2ffe3ca045bce878e0f5addd98d1c306.png](https://i-blog.csdnimg.cn/blog_migrate/65fa4f24eb24698e78786e1043b26707.jpeg)
woe和iv最早来自金融界,主要用来计算自变量与因变量的相关性,在筛选变量、验证新变量的效果上有不错的效果,可以当做一个参考指标衡量变量所包含的信息量。
1. 什么是woe
woe是weight of evidence的简称,用来衡量自变量与因变量的相关性
试想我们当前处理的是一个二分类问题共100条记录,一个自变量只有两个值v1, v2。v1有50条记录,其中40条对应label 1,另外10条对应label 0。v2有50条记录,其中25条对应label 1,另外25条对应label 0。如下图Event%对应count_1_ratio, Non Event%对应count_0_ratio。可见v1的woe值远远高于v2的,直观上我们也可以看出来,v1确实有更好的区分度。为什么要用ln,我这里觉得有两个理由,第一:可以区分正负向作用。第二:防止出现过大或者过小的值。
count count_1 count0 count_1_ratio count_0_ratio tmp woe
v1 50 40 10 40/(40+25)=62% 10/(10+25)=28% 62/28=2.2 ln(2.2)=0.79
v2 50 25 25 25/(40+25)=38% 25/(10+25)=72% 38/72=0.52 ln(0.52)=