数据挖掘概念与技术(第三版)课后答案——第五章

未完待续。。。


5.1 假定10维基本方体只包含3个基本单元: (1) (a1,d2,d3,d4,...,d9,d10), (2) (d1,b2,d3,d4,...,d9,d10), 和(3) (d1,d2,c3,d4,...,d9,d10),其中a1≠d1, b2≠d2并且c3≠dz。该立方体的度量是count ()。
(a)完全数据立方体中包含多少个非空方体?
(b)完全立方体中包含多少个非空聚集(即非基本)单元?
(c) 如果冰山立方体的条件是“count≥2”,那么冰山立方体包含多少个非空聚集单元?
(d)单元c是闭单元,如果不存在单元d使得d是单元c的特殊化(即d通过用非“*”值替换c中的“*”得到),并且d与c具有相同的度量值。闭立方体是仅由闭单元组成的数据立方体。该立方体中有多少个闭单元?

(a)n维数据立方体包含2^{n}个方体,\Rightarrow10维数据立方体包含2^{10}个非空方体。


(b)(1)每一个单元生成2^{10}-1个非空聚集单元,因此3个基本单元总共有3*(2^{10}-1)个非空聚集单元(包含重复记录的);

(2)1×27(即(*,∗,∗,d4,...,d10))重叠两次(因此计数3),3×27(即(d1,∗,∗,d4,...,d10)、(*,d2,∗,d4,...,d10)、(*,∗,d3,d4,...,d10))个像元重叠一次(因此计数2),因此多记录了5*2^{7}个单元;

(3)因此包含3*(2^{10}-1)-5*2^{7}=19*2^{7}-3个。


(c)(1)(d1,∗,∗,d4,...,d9,d10)的计数为2,因为它由单元格2和单元格3生成,

类似地,(2)(∗,d2,∗,d4,...,d9,d10):2,

(3)(∗,∗,d3,d4,...,d9,d10):2;

(4)(∗,∗,∗,d4,...,d9,d10):3

因此该冰山立方体包含4*2^{7}=2^{9}个非空聚集单元


(d)总共有7个闭单元,如下:

(1) (a1,d2,d3,d4,...,d9,d10) : 1,

(2) (d1,b2,d3,d4,...,d9,d10) : 1,

(3) (d1,d2,c3,d4,...,d9,d10) : 1,

(4) (∗,∗,d3,d4,...,d9,d10) : 2,

(5) (∗,d2,∗,d4,...,d9,d10) : 2,

(6) (d1,∗,∗,d4,...,d9,d10) : 2,

(7) (∗,∗,∗,d4,...,d9,d10) : 3。

5.2 有几种典型的立方体计算方法,如MultiWay[ ZDN97]、 BUC[ BR99] 和Star- Cubing[ XHLW03 ]。简单地描述这三种方法(即用一两行列出要点),并在以下条件下比较它们的灵活性和性能:

(a)计算低维(例如, 小于8维)、稠密的完全立方体。
(b)计算具有高度倾斜数据分布的大约10维的冰山立方体。
(c)计算高维(例如,超过100维)、稀疏的冰山立方体。

 MultiWay、 BUC 和Star- Cubing总结:

 Star- Cubing:

  1. 一种集成自顶向下和自底向上的立方体计算方法,结合了多路数组聚集中的同时聚集和BUC中的Apriori剪枝策略。
  2. 利用星型树数据结构进行存储,其中核心的部分就是引入共享维的概念。如果共享维的聚集值不满足冰山条件,则共享维向下的所有单元都不满足冰山条件。

(a)MultiWay和Star-Cubing均比BUC的灵活性和性能好。

(b)MultiWay确实适用于冰山立方体。 对于高度倾斜的数据集,Star-Cubing比BUC更好。

(c)MultiWay确实适用于冰山立方体。MultiWay确实适用于冰山立方体。 BUC和Star-Cubing都无法有效地处理高维数据。 应该探索封闭立方体和壳碎片的方法。

5.3假设数据立方体C有d 个维,并且基本方体包含 k个不同元组。
(a)给出一个公式,计算立方体C可能包含的单元的最小个数。
(b)给出一个公式,计算立方体C可能包含的单元的最大个数。
(e)如果每个立方体单元中的计数不能小于阂值v,回答(a)和(b)。
(d)如果只考虑闭单元(使用最小计数阅值v),回答(a) 和(b)。</

评论 24
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

进击的小绵羊

c币是什么

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值