WOE和IV是在评分卡模型开发中的名词
进过分箱操作之后,变量分布在了区间上,所以我们还需要对区间做一个数值编码
这个数值编码就叫做WOE(Weight of Evidence),先来看一下WOE的计算公式
WOE的优缺点:
优点:
1、可以提高模型的性能:根据公式以每一箱中的相对全体的log odds的超出作为编码依据,能够提高模型的预测精度,同时公式也符合LR的思想
2、分层抽样中的WOE不变性:如果建模需要对好坏样本进行分层抽样,则抽样后计算的WOE与没分层计算的WOE是一致的。
3、其次可以统一变量的一个尺度,一般是【-4,4】之间
缺点:
1、根据公式来看可以看出每一个bin中必须包含bad和good样本
2、对多类别标签无效:如果是多分类,分箱后的WOE无法计算
WOE公式解析:
这个公式没毛病吧,这一箱的W