数据分箱

最新推荐文章于 2024-05-11 20:47:13 发布

t156xxxx4671

最新推荐文章于 2024-05-11 20:47:13 发布

阅读量6.4k

点赞数 2

分类专栏：评分卡

评分卡专栏收录该内容

9 篇文章 2 订阅

订阅专栏

转载自：http://www.cangfengzhe.com/sjwj/2908.html

数据分箱的适用情形

数据分箱是下列情形下常用的方法：

1.某些数值自变量在测量时存在随机误差，需要对数值进行平滑以消除噪音。

2.有些数值自变量有大量不重复的取值，对于使用<、>、=等基本操作符的算法（如决策树）而言，如果能减少这些不重复取值的个数，就能提高算法的速度。

3.有些算法只能使用分类自变量，需要把数值变量离散化。

数据被归入几个分箱之后，可以用每个分箱内数值的均值、中位数或边界值来替代该分箱内各观测的数值，也可以把每个分箱作为离散化后的一个类别。例如，某个自变量的观测值为1，2.1，2.5，3.4，4，5.6，7，7.4，8.2.假设将它们分为三个分箱，（1，2.1，2.5），（3.4，4，5.6），（7，7.4，8.2），那么使用分箱均值替代后所得值为（1.87，1.87，1.87），（4.33，4.33，4.33），（7.53，7.53，7.53），使用分箱中位数替代后所得值为（2.1，2.1，2.1），（4，4，4），（7.4，7.4，7.4），使用边界值替代后所得值为（1，2.5，2.5），（3.4，3.4，5.6），（7，7，8.2）（每个观测值由其所属分箱的两个边界值中较近的值替代）。

数据分箱的常用方法

假设要将某个自变量的观测值分为k个分箱，一些常用的分箱方法有：1.无监督分箱（1）等宽分箱：将变量的取值范围分为k个等宽的区间，每个区间当作一个分箱。

（2）等频分箱：把观测值按照从小到大的顺序排列，根据观测的个数等分为k部分，每部分当作一个分箱，例如，数值最小的1/k比例的观测形成第一个分箱，等等。

（3）基于k均值聚类的分箱：使用第五章将介绍的k均值聚类法将观测值聚为k类，但在聚类过程中需要保证分箱的有序性：第一个分箱中所有观测值都要小于第二个分箱中的观测值，第二个分箱中所有观测值都要小于第三个分箱中的观测值，等等。

2.有监督分箱

在分箱时考虑因变量的取值，使得分箱后达到最小熵（minimumentropy）或最小描述长度（minimumdescriptionlength）。这里仅介绍最小熵。

（1）假设因变量为分类变量，可取值1，…，J。令pl（j）表示第l个分箱内因变量取值为j的观测的比例，l=1，…，k，j=1，…，J；那么第l个分箱的熵值为Jj=1［-pl（j）×log（pl（j））］。如果第l个分箱内因变量各类别的比例相等，即pl（1）=…=pl（J）=1/J，那么第l个分箱的熵值达到最大值；如果第l个分箱内因变量只有一种取值，即某个pl（j）等于1而其他类别的比例等于0，那么第l个分箱的熵值达到最小值。

（2）令rl表示第l个分箱的观测数占所有观测数的比例；那么总熵值为kl= 1rl×Jj=1［-pl（j）×log（pl（j ））］。需要使总熵值达到最小，也就是使分箱能够最大限度地区分因变量的各类别。

t156xxxx4671

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
数据分箱

转载自：http://www.cangfengzhe.com/sjwj/2908.html数据分箱的适用情形数据分箱是下列情形下常用的方法：1.某些数值自变量在测量时存在随机误差，需要对数值进行平滑以消除噪音。2.有些数值自变量有大量不重复的取值，对于使用<、>、=等基本操作符的算法（如决策树）而言，如果能减少这些不重复取值的个数，就能提高算法的速度。3.有些算法只能使用分类自变量，需要把数值变量离
复制链接

扫一扫