这篇文章参考了https://blog.csdn.net/shenxiaoming77/article/details/78771698,如果想要看WOE和IV的例子可以到这里学习。
另外kaggle有一篇特别好的文章,建议大家可以去看看:https://www.kaggle.com/pavansanagapati/weight-of-evidence-woe-information-value-iv
在开始介绍IV前,需要先了解WOE的概念
WOE
WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。
要对一个连续变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)。分组后,对于第i组,WOE的计算公式如下:
其中,表示当前分组中的正样本占所有正样本的比例,也叫响应比例(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”、positive或者1的个体),表示当前分组中的正样本个数,表示所有的正样本的个数。