分计算iv值_风控模型—深入理解WOE与IV指标(转载)

本文详细介绍了WOE(Weight of Evidence)和IV(Information Value)在风控模型中的作用,包括它们的计算步骤、业务价值和理论依据。通过贝叶斯理论和相对熵的角度,解释了WOE的证据权重含义和IV作为预测能力指标的合理性。同时,探讨了WOE与评分卡模型的关系,强调了WOE曲线单调性的重要性。
摘要由CSDN通过智能技术生成

8e737123b7f8729ebdb67756492663dc.png

风控业务背景

在评分卡建模流程中,WOE(Weight of Evidence)常用于特征变换,IV(Information Value)则用来衡量特征的预测能力。风控建模同学可能都很熟悉这两者的应用,但我们仍然可能疑惑诸如“如何调整WOE分箱?“、“WOE与LR之间的关系?”这些问题。

很多文章都已经讨论过这一命题,本文吸取归纳了前人的优秀成果,以期对WOE和IV给出一套相对完整的理论解释。主要创新点在于:

  1. 图表可视化展示WOE和IV指标的计算过程和业务含义,适用于快速入门实践的读者。
  2. 信息论、贝叶斯理论角度来阐述其中蕴含的数学原理,适用于希望加深理解的读者。
目录
Part 1. WOE和IV的应用价值
Part 2. WOE和IV的计算步骤
Part 3. WOE定义的初步猜想
Part 4. 从贝叶斯角度理解WOE
Part 5. WOE与评分卡的渊源
Part 6. 从相对熵角度理解IV
致谢
版权声明
参考资料

Part 1. WOE和IV的应用价值

WOE(Weight of Evidence)叫做证据权重,大家可以思考下为什么会取这个名字?

那么WOE在业务中常有哪些应用呢?

  1. 处理缺失值:当数据源没有100%覆盖时,那就会存在缺失值,此时可以把null单独作为一个分箱。这点在分数据源建模时非常有用,可以有效将覆盖率哪怕只有20%的数据源利用起来。
  2. 处理异常值:当数据中存在离群点时,可以把其通过分箱离散化处理,从而提高变量的鲁棒性(抗干扰能力)。例如,age若出现200这种异常值,可分入“age > 60”这个分箱里,排除影响。
  3. 业务解释性:我们习惯于线性判断变量的作用,当x越来越大,y就越来越大。但实际x与y之间经常存在着非线性关系,此时可经过WOE变换。

IV(Information Value)是与WOE密切相关的一个指标,常用来评估变量的预测能力。因而可用来快速筛选变量。在应用实践中,其评价标准如下:

3ee998ed779b1c4b5db27331e8eaab80.png

在此引用一段话来说明两者的区别和联系:

1. WOE describes the relationship between a predictive variable and a binary target variable
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值