把最近看到的WOE与IV的资料做一个简单的整理
计算WOE(weight of evidence)证据权重和IV值的意义是
(1)IV值可以衡量各变量对y的预测能力,用于筛选变量。
(2)对离散型变量,woe可以观察各个level间的跳转对odds的提升是否呈线性,而IV可以衡量变量整体(而不是每个level)的预测能力
(3)对连续型变量,woe和IV值为分箱的合理性提供了一定的依据。
(4)用woe编码可以处理缺失值问题。
一、WOE的计算方式
其中
是第i箱中坏客户的人数
是第i箱中好客户人数
是总共坏客户人数
总共好客户人数
实质上WOE表示的是当前分箱中好坏客户的各自占总的好坏客户比例的差异
如果WOE的绝对值越大,这种差异就越明显,绝对值越小就表明差异不明显。如果WOE为0,则说明该分箱中好坏客户比例等于随机坏客户和好客户比值,此时这个分箱就无预测能力
用年龄作为计算WOE的例子,先统计不同层的好坏客户数量
计算各层好坏客户比例(相对于总体好坏客户的比例)