WOE
- weight of evidence 证据权重
WOE是对原始自变量的一种编码形式
pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例,#yi是这个组中响应客户的数量,#ni是这个组中未响应客户的数量,#yT是样本中所有响应客户的数量,#nT是样本中所有未响应客户的数量。
即:当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例
WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大,WOE越小,差异越小,这个分组里的样本响应的可能性就越小。
参考https://blog.csdn.net/shenxiaoming77/article/details/78771698
IV
-
Information Value 信息量
我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。
IV就是这样一种指标,他可以用来衡量自变量的预测能力。
类似的指标还有基尼系数和信息增益
IV衡量变量的预测能力。
预测能力强:IV>= 0.3
预测能力中 : 0.1<= IV<0.3
预测能力弱 : 0.02<=IV<0.1
无预测能力 : IV< 0.02 -
vi是比woe更好的指标
chi-square
- 卡方检验