特征分桶的方法

对于一些连续型特征,有时直接使用效果不好,或者不适合某种模型使用,可以进行分桶,变成类别型变量。类别型变量,特别是类别数比较多的特征,也可以使用分桶的方法,进行合并,或者踢掉一些作用不大的类别。那应该怎么划分呢?有什么数据支撑划分的合理性,一般常用WOE与IV值结合进行判断。

1、WOE:Weight Of Evidence

计算公式:

即(某一桶坏客户数/总的坏客户数)/(某一桶好客户数/总的好客户数)=某桶坏客户比例/好客户比例

该值越大,说明坏客户比例越高 ,包含的信息越大,区分性越强,对模型预测能力作用越大。

分桶的数量控制:一般是10~20桶就可以,每个分桶应保证不少于5%的样本,一般先精细分桶(20~50个),再粗分桶,通过IV值、基尼系数、卡方统计量等进行桶合并,每桶具有明显区分最好。

如何用WOE检验分桶的准确性:

1)WOE应该呈单调趋势

2)在预测变量做了WOE编码后跑一个单变量的逻辑回归,如果斜率不为1或者截距项不等于 ,则该分箱效果不佳。

 对于离散变量,例如职业包含学生、老师、工人等名义属性时,先将变量的不同level作WOE编码后,把WOE值相近的level合并在一起,这样可以减少level数量。因为有相近的WOE值的level有几乎相同的响应率/非响应率,换句话说,某几个level有相近的woe值就将他们合并成一个箱子。

为什么WOE值可以叫证据权重:

WOE实际表达的是加入该特征后,增加的信息量,越大越好,有点像信息增益

2、IV:information value

 n是分桶的数量

IV=((当前分桶中响应数量/整体样本响应数量)/(当前分箱未响应数量/整体样本未响应数量))*WOE

  如果IV值大于0.5,则考虑要对这个变量进行分群处理。即根据这个变量拆分成几个样本子集,分别在各个样本子集上建模。

IV值注意事项

  • IV值会随着分箱数的变多而增长,但是如果分箱数量过多,比如大于20个分箱会导致每个分箱中样本数量太少,导致某个分箱几乎没有响应的样本或者是几乎没有未响应样本
  • 当你在建立的分类模型不是二元逻辑回归模型时,比如你用SVM或者是随机森林等,不应 该用IV值作为变量选择的方法,因为IV值作为变量选择的方法是专门针对逻辑回归设计的

参考资料:

【详解】银行信用评分卡中的WOE在干什么? - 知乎

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值