数据挖掘BUC算法计算冰山立方体的python实现

阴天v快乐丶

已于 2022-11-15 15:56:09 修改

阅读量1.8k

点赞数 2

文章标签： python 数据挖掘算法数据仓库 big data

于 2022-11-14 12:09:54 首次发布

本文链接：https://blog.csdn.net/chenjh027/article/details/127844689

版权

本文介绍了冰山立方体计算的概念，特别是BUC（Bottom-Up Computation）算法的原理和实现过程。BUC算法采用分治策略，从顶点立方体开始逐步向下计算，通过递归和剪枝操作减少不必要的计算。在示例中，展示了如何使用BUC算法处理数据集BUC-test2.csv，输出满足冰山条件的聚集元组。此算法关注数据的稀疏性和存储效率，但其性能可能受维次序和数据不平衡的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

冰山立方体计算

在很多情况下，数据立方体的空间大多被低度量值的数据单元所占据，而这些数据单元往往是分析者很少关心的内容。冰山立方体的计算能够减少物化数据单元所占有的存储空间。
常用计算方法：
BUC：Bottom-Up Computation
Star-Cubing
MMCubing,C-Cubing等

下面，我将就BUC算法的原理及实现做具体介绍：

BUC主要思想：

buc是一种从顶点立方体逐步向下到基本立方体的计算方法，用于计算稀疏冰山立方体。首先计算整个数据立方体的度量值,然后沿着每个维度进行划分，同时检查冰山条件，对不满足条件的分枝进行剪枝操作，对满足的在下一个维度讲行递归搜索。
在这里插入图片描述

BUC计算流程：

首先，扫描整个输入，计算整个度量（如总计数）；
针对方体的每一维进行划分；
针对每一个划分，对它进行聚集，为该划分创建一个元组并得到该元组的计数。判断其分组计数是否满足最小支持度；
如果满足，输出该划分的聚集元组，并在该划分上对下一维进行递归调用，否则进行剪枝操作。

BUC算法特点及缺陷：

BUC算法中采用了分治策略，优点在于能够分担划分开销，减少不必要的计算消耗。
BUC的性能容易受到维的次序以及不平衡数据的影响，应当以维基数的递减顺序进行划分。
BUC不像多路数组聚集（MultiWay），不能利用父子关系共享聚集计算。

BUC的算法实现：

首先我引入自定义数据集，BUC-test2.csv：
a1 b1 c1 d1
a1 b1 c2 d2
a1 b1 c2 d2
a2 b1 c1 d2
a2 b2 c2 d2
a3 b3 c1 d1
a4 b4 c1 d1

import pandas as pd

dataList = pd.read_csv('BUC-test2.csv') #读取数据集
print(dataList)
print("维数：",dataList.columns.size) #统计数据的维数
lenN = dataList.columns.size
NumFall = [0] * lenN  # [0, 0, 0, 0]
ValueFAll = [] # [[a1,a2....],[b1,b2...]]，定义一个列表value0fall用来统计并存储各维不重复的叶结点。
for j in range(lenN

最低0.47元/天解锁文章