WOE和IV是在评分卡模型开发中的名词
进过分箱操作之后,变量分布在了区间上,所以我们还需要对区间做一个数值编码
这个数值编码就叫做WOE(Weight of Evidence),先来看一下WOE的计算公式
![bda151e0d77ea698fbe866931147c691.png](https://i-blog.csdnimg.cn/blog_migrate/72df274d54af77bb2bccc5b266578754.jpeg)
WOE的优缺点:
优点:
1、可以提高模型的性能:根据公式以每一箱中的相对全体的log odds的超出作为编码依据,能够提高模型的预测精度,同时公式也符合LR的思想
2、分层抽样中的WOE不变性:如果建模需要对好坏样本进行分层抽样,则抽样后计算的WOE与没分层计算的WOE是一致的。
3、其次可以统一变量的一个尺度,一般是【-4,4】之间
缺点:
1、根据公式来看可以看出每一个bin中必须包含bad和good样本
2、对多类别标签无效:如果是多分类,分箱后的WOE无法计算
WOE公式解析:
![598ba0d8fce45ef74eb411c8e5c9506a.png](https://i-blog.csdnimg.cn/blog_migrate/018813940c658a3ac4f57fb7213e0576.jpeg)
这个公式没毛病吧,这一箱的W