特征分桶的方法

最新推荐文章于 2024-07-18 19:10:04 发布

hhhh106

最新推荐文章于 2024-07-18 19:10:04 发布

阅读量2.7k

点赞数

文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25174485/article/details/123466929

版权

对于一些连续型特征，有时直接使用效果不好，或者不适合某种模型使用，可以进行分桶，变成类别型变量。类别型变量，特别是类别数比较多的特征，也可以使用分桶的方法，进行合并，或者踢掉一些作用不大的类别。那应该怎么划分呢？有什么数据支撑划分的合理性，一般常用WOE与IV值结合进行判断。

1、WOE：Weight Of Evidence

计算公式：

即(某一桶坏客户数/总的坏客户数)/(某一桶好客户数/总的好客户数)=某桶坏客户比例/好客户比例

该值越大，说明坏客户比例越高，包含的信息越大，区分性越强，对模型预测能力作用越大。

分桶的数量控制：一般是10~20桶就可以，每个分桶应保证不少于5%的样本，一般先精细分桶（20~50个），再粗分桶，通过IV值、基尼系数、卡方统计量等进行桶合并，每桶具有明显区分最好。

如何用WOE检验分桶的准确性：

1）WOE应该呈单调趋势

2）在预测变量做了WOE编码后跑一个单变量的逻辑回归，如果斜率不为1或者截距项不等于 ,则该分箱效果不佳。

对于离散变量，例如职业包含学生、老师、工人等名义属性时，先将变量的不同level作WOE编码后，把WOE值相近的level合并在一起，这样可以减少level数量。因为有相近的WOE值的level有几乎相同的响应率/非响应率，换句话说，某几个level有相近的woe值就将他们合并成一个箱子。

为什么WOE值可以叫证据权重：

WOE实际表达的是加入该特征后，增加的信息量，越大越好，有点像信息增益

2、IV：information value

n是分桶的数量

IV=（（当前分桶中响应数量/整体样本响应数量）/（当前分箱未响应数量/整体样本未响应数量））*WOE

如果IV值大于0.5，则考虑要对这个变量进行分群处理。即根据这个变量拆分成几个样本子集，分别在各个样本子集上建模。

IV值注意事项

IV值会随着分箱数的变多而增长，但是如果分箱数量过多，比如大于20个分箱会导致每个分箱中样本数量太少，导致某个分箱几乎没有响应的样本或者是几乎没有未响应样本
当你在建立的分类模型不是二元逻辑回归模型时，比如你用SVM或者是随机森林等，不应该用IV值作为变量选择的方法，因为IV值作为变量选择的方法是专门针对逻辑回归设计的

参考资料：

【详解】银行信用评分卡中的WOE在干什么？ - 知乎

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
特征分桶的方法

对于一些连续型特征，有时直接使用效果不好，或者不适合某种模型使用，可以进行分桶，变成类别型变量。类别型变量，特别是类别数比较多的特征，也可以使用分桶的方法，进行合并，或者踢掉一些作用不大的类别。那应该怎么划分呢？有什么数据支撑划分的合理性，一般常用WOE与IV值结合进行判断。1、WOE：Weight Of Evidence计算公式：即(某一桶坏客户数/总的坏客户数)/(某一桶好客户数/总的好客户数)=某桶坏客户比例/好客户比例该值越大，说明坏客户比例越高，包含的信息越大，区分性越强，对模型
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。