风控业务背景
在评分卡建模流程中,WOE(Weight of Evidence)常用于特征变换,IV(Information Value)则用来衡量特征的预测能力。风控建模同学可能都很熟悉这两者的应用,但我们仍然可能疑惑诸如“如何调整WOE分箱?“、“WOE与LR之间的关系?”这些问题。
很多文章都已经讨论过这一命题,本文吸取归纳了前人的优秀成果,以期对WOE和IV给出一套相对完整的理论解释。主要创新点在于:
- 用图表可视化展示WOE和IV指标的计算过程和业务含义,适用于快速入门实践的读者。
- 从信息论、贝叶斯理论角度来阐述其中蕴含的数学原理,适用于希望加深理解的读者。
目录
Part 1. WOE和IV的应用价值
Part 2. WOE和IV的计算步骤
Part 3. WOE定义的初步猜想
Part 4. 从贝叶斯角度理解WOE
Part 5. WOE与评分卡的渊源
Part 6. 从相对熵角度理解IV
致谢
版权声明
参考资料
Part 1. WOE和IV的应用价值
WOE(Weight of Evidence)叫做证据权重,大家可以思考下为什么会取这个名字?
那么WOE在业务中常有哪些应用呢?
- 处理缺失值:当数据源没有100%覆盖时,那就会存在缺失值,此时可以把null单独作为一个分箱。这点在分数据源建模时非常有用,可以有效将覆盖率哪怕只有20%的数据源利用起来。
- 处理异常值:当数据中存在离群点时,可以把其通过分箱离散化处理,从而提高变量的鲁棒性(抗干扰能力)。例如,age若出现200这种异常值,可分入“age > 60”这个分箱里,排除影响。
- 业务解释性:我们习惯于线性判断变量的作用,当x越来越大,y就越来越大。但实际x与y之间经常存在着非线性关系,此时可经过WOE变换。
IV(Information Value)是与WOE密切相关的一个指标,常用来评估变量的预测能力。因而可用来快速筛选变量。在应用实践中,其评价标准如下:
在此引用一段话来说明两者的区别和联系:
1. WOE describes the relationship between a predictive variable and a binary target variable