初识IV、WOE

最新推荐文章于 2023-06-05 10:24:26 发布

Wanying Teng

最新推荐文章于 2023-06-05 10:24:26 发布

阅读量596

点赞数

分类专栏：机器学习文章标签：数据分析机器学习

原文链接：https://www.jianshu.com/p/3a7cb26ca268

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

IV值的简单说明

IV，即information value，中文含义为信息价值，或者说信息量

当现实中，我们进行建模时，不知道哪些自变量对模型有效，会构造几百个甚至上千个自变量，但这些自变量不会都放入模型进行训练，而是会使用一些方法，对自变量进行筛选后，再放入模型进行拟合训练。那么，如何挑选入模变量呢？

入模变量需要考虑的因素：

1、变量的预测能力

2、变量之间的相关性

3、变量的简单性

4、变量的稳健型

5、变量的可解释性

其中，以变量的预测能力为最主要和最直接的衡量标准。而IV值、信息增益、基尼系数等都能用来衡量自变量的预测能力。

IV值如何计算？

IV值是在WOE的基础上计算得出的，我们先来说说WOE是个什么意思～

WOE，全称Weight of Evidence，即证据的权重，woe是对原始自变量的一种编码形式。

首先，需要对自变量进行分组（分bin、离散化等），对不同组别分别计算woe值，其中第i组，WOE的计算公式为：

WOEi=ln(Pyi/Pni)
在这里插入图片描述
Pyi为该分组中响应用户数占所有响应用户的比例，Pni为该分组中非响应用户数占所有非响应用户的比例，将公式稍微变形，可知：

WOE也可表示“当前分组中响应用户与非响应用户的比值，同整体样本中响应用户与非响应用户的比值差异“。那么WOE越大，这种差异就越大，这个分组中样本响应的可能性越大。

各分组的IV值可以由WOE计算得到，计算方式为：
在这里插入图片描述
该变量的IV值为各组内IV值汇总

其中n为组数

实例介绍：见下方链接

常见问题：

1、为什么IV值不用WOE的绝对值汇总，而要乘（pyi-pni）？

若分组后，1组响应用户与非响应用户占比的确很显著，但1组用户数只占总用户数的1%，这样的变量其实对整体样本而言，是没有多大意义的，因为大部分的用户不会分到1组，该变量的预测能力并不强

2、IV的极端情况及处理方式？

使用IV其实有一个缺点，就是不能自动处理变量的分组中出现响应比例为0或100%的情况。那么，遇到响应比例为0或者100%的情况，我们应该怎么做呢？建议如下：

（1）如果可能，直接把这个分组做成一个规则，作为模型的前置条件或补充条件；

（2）重新对变量进行离散化或分组，使每个分组的响应比例都不为0且不为100%，尤其是当一个分组个体数很小时（比如小于100个），强烈建议这样做，因为本身把一个分组个体数弄得很小就不是太合理。

（3）如果上面两种方法都无法使用，建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0，可以人工调整响应数为1，如果非响应数原本为0，可以人工调整非响应数为1.

学习自https://www.jianshu.com/p/3a7cb26ca268

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
初识IV、WOE

IV值的简单说明IV，即information value，中文含义为信息价值，或者说信息量当现实中，我们进行建模时，不知道哪些自变量对模型有效，会构造几百个甚至上千个自变量，但这些自变量不会都放入模型进行训练，而是会使用一些方法，对自变量进行筛选后，再放入模型进行拟合训练。那么，如何挑选入模变量呢？入模变量需要考虑的因素：1、变量的预测能力2、变量之间的相关性3、变量的简单性4、变...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。