对于一些连续型特征,有时直接使用效果不好,或者不适合某种模型使用,可以进行分桶,变成类别型变量。类别型变量,特别是类别数比较多的特征,也可以使用分桶的方法,进行合并,或者踢掉一些作用不大的类别。那应该怎么划分呢?有什么数据支撑划分的合理性,一般常用WOE与IV值结合进行判断。
1、WOE:Weight Of Evidence
计算公式:
即(某一桶坏客户数/总的坏客户数)/(某一桶好客户数/总的好客户数)=某桶坏客户比例/好客户比例
该值越大,说明坏客户比例越高 ,包含的信息越大,区分性越强,对模型预测能力作用越大。
分桶的数量控制:一般是10~20桶就可以,每个分桶应保证不少于5%的样本,一般先精细分桶(20~50个),再粗分桶,通过IV值、基尼系数、卡方统计量等进行桶合并,每桶具有明显区分最好。
如何用WOE检验分桶的准确性:
1)WOE应该呈单调趋势
2)在预测变量做了WOE编码后跑一个单变量的逻辑回归,如果斜率不为1或者截距项不等于 ,则该分箱效果不佳。
对于离散变量,例如职业包含学生、老师、工人等名义属性时,先将变量的不同level作WOE编码后,把WOE值相近的level合并在一起,这样可以减少level数量。因为有相近的WOE值的level有几乎相同的响应率/非响应率,换句话说,某几个level有相近的woe值就将他们合并成一个箱子。
为什么WOE值可以叫证据权重:
WOE实际表达的是加入该特征后,增加的信息量,越大越好,有点像信息增益
2、IV:information value
n是分桶的数量
IV=((当前分桶中响应数量/整体样本响应数量)/(当前分箱未响应数量/整体样本未响应数量))*WOE
如果IV值大于0.5,则考虑要对这个变量进行分群处理。即根据这个变量拆分成几个样本子集,分别在各个样本子集上建模。
IV值注意事项
- IV值会随着分箱数的变多而增长,但是如果分箱数量过多,比如大于20个分箱会导致每个分箱中样本数量太少,导致某个分箱几乎没有响应的样本或者是几乎没有未响应样本
- 当你在建立的分类模型不是二元逻辑回归模型时,比如你用SVM或者是随机森林等,不应 该用IV值作为变量选择的方法,因为IV值作为变量选择的方法是专门针对逻辑回归设计的
参考资料: