未完待续。。。
5.1 假定10维基本方体只包含3个基本单元: (1) (a1,d2,d3,d4,...,d9,d10), (2) (d1,b2,d3,d4,...,d9,d10), 和(3) (d1,d2,c3,d4,...,d9,d10),其中a1≠d1, b2≠d2并且c3≠dz。该立方体的度量是count ()。
(a)完全数据立方体中包含多少个非空方体?
(b)完全立方体中包含多少个非空聚集(即非基本)单元?
(c) 如果冰山立方体的条件是“count≥2”,那么冰山立方体包含多少个非空聚集单元?
(d)单元c是闭单元,如果不存在单元d使得d是单元c的特殊化(即d通过用非“*”值替换c中的“*”得到),并且d与c具有相同的度量值。闭立方体是仅由闭单元组成的数据立方体。该立方体中有多少个闭单元?
(a)n维数据立方体包含
个方体,
10维数据立方体包含
个非空方体。
(b)(1)每一个单元生成
个非空聚集单元,因此3个基本单元总共有
个非空聚集单元(包含重复记录的);
(2)1×27(即(*,∗,∗,d4,...,d10))重叠两次(因此计数3),3×27(即(d1,∗,∗,d4,...,d10)、(*,d2,∗,d4,...,d10)、(*,∗,d3,d4,...,d10))个像元重叠一次(因此计数2),因此多记录了
个单元;
(3)因此包含
=
个。
(c)(1)(d1,∗,∗,d4,...,d9,d10)的计数为2,因为它由单元格2和单元格3生成,
类似地,(2)(∗,d2,∗,d4,...,d9,d10):2,
(3)(∗,∗,d3,d4,...,d9,d10):2;
(4)(∗,∗,∗,d4,...,d9,d10):3
因此该冰山立方体包含
个非空聚集单元
(d)总共有7个闭单元,如下:
(1) (a1,d2,d3,d4,...,d9,d10) : 1,
(2) (d1,b2,d3,d4,...,d9,d10) : 1,
(3) (d1,d2,c3,d4,...,d9,d10) : 1,
(4) (∗,∗,d3,d4,...,d9,d10) : 2,
(5) (∗,d2,∗,d4,...,d9,d10) : 2,
(6) (d1,∗,∗,d4,...,d9,d10) : 2,
(7) (∗,∗,∗,d4,...,d9,d10) : 3。
5.2 有几种典型的立方体计算方法,如MultiWay[ ZDN97]、 BUC[ BR99] 和Star- Cubing[ XHLW03 ]。简单地描述这三种方法(即用一两行列出要点),并在以下条件下比较它们的灵活性和性能:
(a)计算低维(例如, 小于8维)、稠密的完全立方体。
(b)计算具有高度倾斜数据分布的大约10维的冰山立方体。
(c)计算高维(例如,超过100维)、稀疏的冰山立方体。
MultiWay、 BUC 和Star- Cubing总结:
Star- Cubing:
- 一种集成自顶向下和自底向上的立方体计算方法,结合了多路数组聚集中的同时聚集和BUC中的Apriori剪枝策略。
- 利用星型树数据结构进行存储,其中核心的部分就是引入共享维的概念。如果共享维的聚集值不满足冰山条件,则共享维向下的所有单元都不满足冰山条件。
(a)MultiWay和Star-Cubing均比BUC的灵活性和性能好。
(b)MultiWay确实适用于冰山立方体。 对于高度倾斜的数据集,Star-Cubing比BUC更好。
(c)MultiWay确实适用于冰山立方体。MultiWay确实适用于冰山立方体。 BUC和Star-Cubing都无法有效地处理高维数据。 应该探索封闭立方体和壳碎片的方法。
5.3假设数据立方体C有d 个维,并且基本方体包含 k个不同元组。
(a)给出一个公式,计算立方体C可能包含的单元的最小个数。
(b)给出一个公式,计算立方体C可能包含的单元的最大个数。
(e)如果每个立方体单元中的计数不能小于阂值v,回答(a)和(b)。
(d)如果只考虑闭单元(使用最小计数阅值v),回答(a) 和(b)。</