【数据挖掘概念与技术】学习笔记5-数据立方体技术

最新推荐文章于 2024-08-20 16:04:47 发布

马面

最新推荐文章于 2024-08-20 16:04:47 发布

阅读量1.8w

点赞数 4

分类专栏：数据挖掘和机器学习文章标签：数据挖掘数据挖掘概念与技术学习笔记

本文链接：https://blog.csdn.net/mamianskyma/article/details/15494471

版权

数据立方体是数据挖掘中的重要概念，用于高效处理多维数据。本文介绍了数据立方体的层次结构，包括基本方体、完全立方体和稀疏立方体。针对存储和计算的挑战，提出了冰山立方体、闭立方体以及立方体外壳等策略。同时，讨论了数据立方体的计算优化技术，如排序、散列、分组、先验剪枝等。最后，探讨了数据立方体在高级查询、样本数据处理、top-k查询以及预测和异常检测等领域的应用。

摘要由CSDN通过智能技术生成

基本方体是数据立方体中泛化程度最低的方体。泛化程序最高的方体是顶点方体，通常用all表示。基本方体的单元是基本单元，非基本方体的单元是聚集单元。
聚集单元在一个或多个维上聚集，其中每个聚集维用单元记号中的“*”表示。如n维数据立方体，令a=(a1,a2,...,an,measures)是一个单元，取自构成数据立方体的一个方体。如｛a1,a2,...,an｝中恰有m个值不是“*”，则a是m维单元。
单元之间可能存在祖先-后代关系。a=(a1,a2,...,an,measuresA)，b=(b1,b2,...,bn,measuresB)，b可以由a的某个或某几个维上聚集产生，则b是a的祖先，即a,b除了*外，其他都相同（a1=b1,a2=b2等）。
完全立方体：即给定数据立方体的所有方体的所有单元。注意是所有方体，不只是基本方体。
完全立方体的计算复杂度是维数的指数，即N维数据立方体包含2的N次方个方体。如果考虑每个维的概念分层，那么方体的个数更多。
预计算完全立方体可能需要海量空间，常常超过内存的容量。
当相对于存放在方体中的非零值元组的数量，方体维的基数的乘机很大时，则称该方体是稀疏的，如果一个立方体包含许多稀疏方体，则称该立方体是稀疏的。
在许多情况下，相当多的立方体空间可能被大量具有很低度量值的单元所占据，这是因为立方体单元在多维空间中的分布常常是相当稀疏的。此时，仅物化其度量值大于某个最小阈值的方体单元是有用的。这种部分物化的立方体称为冰山立方体，这种最小阈值称为最小支持度阈值，或简称最小支持度。
冰山立方体将减轻数据立方体中不重要聚集单元的负担，但仍然有大量不感兴趣的单元需要计算。如，100维的数据库有2个基本单元，记作｛（a1,a2,a3,...,a100）：10，（a1,a2,b3,...,b100）：10｝，其中每个单元的计数都是10，如最小支持度是10，则需计算和存储的单仍然很多。
- 为了系统的压缩数据立方体，引入闭覆盖的概念。一个单元c是闭单元，如果不存在单元d，使d是c的特殊化（后代，即d通过将c中的“*”值用“非*”值替换得到），并且d与c具有相同的度量值。闭立方体是一个仅由闭单元组成的数据立方体。
部分物化的另一种策略是只预计算涉及少数的方体，这些方体形成对应的数据立方体的立方体外壳。在附加的维组合上的查询必须临时计算。如可以预计算n维数据立方体中具有3个或更少维的所有方体，产生大小为3的立方体外壳。但当N很大时，仍需计算大量方体。或者可以基于方体的兴趣度，选择只预计算立方体外壳的部分或片段。
数据立方体计算的一般策略：一般而言，有两种基本数据结构用于存储方体，关系OLAP（ROLAP）的实现使用关系表，而多维数组用于多维OLAP（MOLAP）。
- 优化技术1：排序、散列和分组。应当对维属性使用排序、散列和分组操作，以便对相关元组重新定序和聚类。
  - 在立方体计算中，要对共享一组相同维值的元组（或单元）进行聚集。重要的是，利用排序、散列和分组操作对这样的数据进行访问和分组，以便有利于聚集的计算。如，为了按branch、day、item计算总销售，可以选按branch、再按day对元组或单元进行排序，然后按item名对它们分组。
  - 这些技术可以进一步扩展，进行共享排序（当使用基于排序的方法时，在多个方体之间共享排序开销），或进行共享划分（当使用基于散列的方法时，在多个方体间共享划分开销）。
- 优化技术2：同时聚集和缓存中间结果。
  - 在立方体计算中，从先前计算的较低层聚集而不是从基本事实表计算较高层聚集是有效的。此外，从