建模常用的概念介绍1： WOE、IV

最新推荐文章于 2025-05-07 11:17:46 发布

乐想屋

最新推荐文章于 2025-05-07 11:17:46 发布

阅读量1.7w

点赞数 4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/78790106

版权

本文详细介绍了WOE编码和IV值在建模中的应用。WOE通过对变量分组，衡量各组对目标变量的贡献，用于标准化自变量，处理异常值。IV值作为衡量自变量预测能力的指标，基于WOE计算，帮助筛选入模变量。当IV值超过0.1，认为变量具有较强预测能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了挑选并构造出对目标变量有较高预测力的自变量，需要对变量进行WOE编码，通过IV值的看变量的贡献。

1、WOE(weight of Evidence 证据权重)

1）解释及公式

WOE是对原始自变量的一种编码形式。

要对一个变量进行WOE编码，需要首先把这个变量进行分组处理/离散化处理（等宽切割，等高切割，或者利用决策树来切割）。分组后，对于第i组，WOE的计算公式如下：

其中：pyi为坏样本占所有坏样本的比例，py0好样本占所有好样本的比例；B为坏样本总数，Bi为变量i对应的坏样本个数，G为好样本总数，Gi为变量i对应的好样本个数；

注：将模型目标变量y为1记为违约用户（坏样本），对于目标变量为0记为正常用户（好样本）

2）直观字面理解：

WOE表示的实际上是“当前分组中坏客户占所有坏客户的比例”和“当前分组中好客户占所

有坏客户的比例”的差异。转化公式以后，也可以理解为：当前这个组中坏客户和好客户的比值，和所有样本中这个比值的差异。这个差异为这两个比值的比值，再取对数来表示的。

WOE越大，这种差异越大，这个分组里的样本坏样本可能性就越大，WOE越小，差异越小，这个分组里的坏样本可能性就越小。

3

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。