数据挖掘冰山立方体构建算法：BUC及实现

最新推荐文章于 2022-11-14 12:09:54 发布

VIP文章 Jemary_

最新推荐文章于 2022-11-14 12:09:54 发布

阅读量1.8k

点赞数

分类专栏： SDU Exam&Review Collection

本文链接：https://blog.csdn.net/jemary_/article/details/88987280

版权

1.冰山立方体知识：

waiting...

2.代码实现：

实现思路：全程模拟，写的时候理解还不够透彻，第一轮算出频率大于min_sup的集合，然后根据此集合开始不断向下扩展，筛选所有大于min_sup的项直至达到最大维数。
实现过程遵循的原则：所有出现在数据中但未出现在满足min_sup的集合中的项一律不予计算
未实现：理想地，应当首先处理最有区分能力的维。维应当以基数递减数处理。基数越高，分区越小，因而分区越多，从页为BUC剪枝提供了更大的机会。

代码：

test.csv:

a1,b1,c1,d1
a1,b2,c2,d2
a1,b3,c2,d1
a1,b4,c1,d2
a2,b1,c1,d1
a2,b2,c2,d2
a2,b3,c2,d1
a2,b4,c1,d2
a3,b1,c1,d1
a3,b2,c2,d2
a3,b3,c2,d1
a3,b4,c1,d2
a4,b1,c1,d1
a4,b2,c2,d2
a4,b3,c1,d2
a4,b4,c2,d1

BUC:

with open('test.csv','r') as fr:
    data_count = dict()
    data = fr.read().splitlines()
    for i in range(len(data)):
        data[i] = str(data[i]).split(",")

dims = [x[0] for x in data[0]]  # record representat

最低0.47元/天解锁文章

Jemary_

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
10
评论
数据挖掘冰山立方体构建算法：BUC及实现

1.冰山立方体知识：waiting...2.代码实现：实现思路：全程模拟，写的时候理解还不够透彻，第一轮算出频率大于min_sup的集合，然后根据此集合开始不断向下扩展，筛选所有大于min_sup的项直至达到最大维数。实现过程遵循的原则：所有出现在数据中但未出现在满足min_sup的集合中的项一律不予计算未实现：理想地，应当首先处理最有区分能力的维。维应当以基数递减数处理。基数...
复制链接

扫一扫