【数据分箱】WOE，IV

最新推荐文章于 2024-07-04 23:43:15 发布

jason7323

最新推荐文章于 2024-07-04 23:43:15 发布

阅读量1.8k

点赞数

数据分箱是下列情形下常用的方法：

1.某些数值自变量在测量时存在随机误差，需要对数值进行平滑以消除噪音。

2.有些数值自变量有大量不重复的取值，对于使用<、>、=等基本操作符的算法（如决策树）而言，如果能减少这些不重复取值的个数，就能提高算法的速度。

3.有些算法只能使用分类自变量，需要把数值变量离散化。

数据被归入几个分箱之后，可以用每个分箱内数值的均值、中位数或边界值来替代该分箱内各观测的数值，也可以把每个分箱作为离散化后的一个类别。例如，某个自变量的观测值为1，2.1，2.5，3.4，4，5.6，7，7.4，8.2.假设将它们分为三个分箱，（1，2.1，2.5），（3.4，4，5.6），（7，7.4，8.2），那么使用分箱均值替代后所得值为（1.87，1.87，1.87），（4.33，4.33，4.33），（7.53，7.53，7.53），使用分箱中位数替代后所得值为（2.1，2.1，2.1），（4，4，4），（7.4，7.4，7.4），使用边界值替代后所得值为（1，2.5，2.5），（3.4，3.4，5.6），（7，7，8.2）（每个观测值由其所属分箱的两个边界值中较近的值替代）。

IV 值经验规则：

IV < 0.02 ：不具有预测能力

0.02<= IV < 0.1 ：预测能力很弱

0.1<= IV < 0.3 ：中等程度预测能力

IV >= 0.3 ：预测能力很强

IV 值法只适用于分类变量，可以通过调整分类阈值来提高IV值。使用IV值进行变量筛选时，可以计算出所有的分类变量的IV值，然后选择 IV值大于 0.1 或IV值最高的前 10% 变量。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【数据分箱】WOE，IV

数据分箱是下列情形下常用的方法：1.某些数值自变量在测量时存在随机误差，需要对数值进行平滑以消除噪音。2.有些数值自变量有大量不重复的取值，对于使用&lt;、&gt;、=等基本操作符的算法（如决策树）而言，如果能减少这些不重复取值的个数，就能提高算法的速度。3.有些算法只能使用分类自变量，需要把数值变量离散化。数据被归入几个分箱之后，可以用每个分箱内数值的均值、中位数或边界值来替代该分箱内各观测的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。