分计算iv值_算法篇-woe和iv详解

woe和iv最早来自金融界,主要用来计算自变量与因变量的相关性,在筛选变量、验证新变量的效果上有不错的效果,可以当做一个参考指标衡量变量所包含的信息量。1. 什么是woewoe是weight of evidence的简称,用来衡量自变量与因变量的相关性试想我们当前处理的是一个二分类问题共100条记录,一个自变量只有两个值v1, v2。v1有50条记录,其中40条对应label 1,另外10条对应l...
摘要由CSDN通过智能技术生成

2ffe3ca045bce878e0f5addd98d1c306.png

woe和iv最早来自金融界,主要用来计算自变量与因变量的相关性,在筛选变量、验证新变量的效果上有不错的效果,可以当做一个参考指标衡量变量所包含的信息量。

1. 什么是woe

woe是weight of evidence的简称,用来衡量自变量与因变量的相关性

试想我们当前处理的是一个二分类问题共100条记录,一个自变量只有两个值v1, v2。v1有50条记录,其中40条对应label 1,另外10条对应label 0。v2有50条记录,其中25条对应label 1,另外25条对应label 0。如下图Event%对应count_1_ratio, Non Event%对应count_0_ratio。可见v1的woe值远远高于v2的,直观上我们也可以看出来,v1确实有更好的区分度。为什么要用ln,我这里觉得有两个理由,第一:可以区分正负向作用。第二:防止出现过大或者过小的值。

count count_1 count0 count_1_ratio count_0_ratio tmp woe

v1 50 40 10 40/(40+25)=62% 10/(10+25)=28% 62/28=2.2 ln(2.2)=0.79

v2 50 25 25 25/(40+25)=38% 25/(10+25)=72% 38/72=0.52 ln(0.52)=

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值