数据挖掘如何分箱以及如何对每个箱子中的数据进行平滑处理

最新推荐文章于 2024-07-23 01:00:00 发布

暮雪成冰

最新推荐文章于 2024-07-23 01:00:00 发布

阅读量2.2w

点赞数 22

原文链接：https://blog.csdn.net/weixin_42859280/article/details/93486998

版权

参考：https://www.cnblogs.com/serena45/p/5559122.html

分箱的方法：有4种：等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

数据平滑方法：有3种按平均值平滑、按边界值平滑和按中值平滑。

统一权重，也成等深分箱法，将数据集按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

统一区间，也称等宽分箱法，使数据集在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。

用户自定义区间，用户可以根据需要自定义区间，当用户明确希望观察某些区间范围内的数据分布时，使用这种方法可以方便地帮助用户达到目的。

例：

客户收入属性income排序后的值（人民币元）：

800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000，分箱的结果如下。

统一权重：设定权重（箱子深度）为4，分箱后

【就是每个箱子都是装4个数值】

箱1：800 1000 1200 1500

箱2：1500 1800 2000 2300

箱3：2500 2800 3000 3500

箱4：4000 4500 4800 5000

统一区间：设定区间范围（箱子宽度）为1000元人民币，分箱后

如果，设定箱子宽度为W。那么（结合本例）

第一个：800--800+W；第二个：2000--2000+W；第三个：3500--3500+W；第四个：4800--4800+W

箱1：800 1000 1200 1500 1500 1800

箱2：2000 2300 2500 2800 3000

箱3：3500 4000 4500

箱4：4800 5000

用户自定义：如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组，分箱后

箱1：800

箱2：1000 1200 1500 1500 1800 2000

箱3：2300 2500 2800 3000

箱4：3500 4000

箱5：4500 4800 5000

数据平滑方法：按平均值平滑、按边界值平滑和按中值平滑。

例子：

price 的排序后数据(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
划分为（等深的）箱:
-箱1: 4, 8, 9, 15
-箱2: 21, 21, 24, 25
-箱3: 26, 28, 29, 34

用箱平均值平滑:
-箱1: 9, 9, 9, 9
-箱2: 23, 23, 23, 23
-箱3: 29, 29, 29, 29

用箱边界值平滑:
-箱1: 4, 4, 4, 15
-箱2: 21, 21, 25, 25
-箱3: 26, 26, 26, 34

⑴按平均值平滑：对同一箱值中的数据求平均值，用平均值替代该箱子中的所有数据。

⑵按边界值平滑：用距离较小的边界值替代箱中每一数据。

⑶按中值平滑：取箱子的中值，用来替代箱子中的所有数据。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。