总述:数据在经过预处理和装入数据仓库之后,下一步就是应用具体的算法来处理数据,找出其中有业务意义的部分。这一部分详细的介绍了数据挖掘相关算法的核心思想,常见问题算法的指导方向。
- 如何根据数据立方体的情况选取合适的计算方法
- 完全立方体计算的多路数组聚集方法是怎么进行操作的
- BUC是怎么计算冰山立方体的
- 动态星形树结构是如何用来计算冰山立方体的
- 快速预计算高维OLAP壳片段的处理
- 数据立方体的发现驱动探查是什么?
- 面向属性的归纳
1.如何根据数据立方体的情况选取合适的计算方法
答:基本方体的单元是基本单元。非基本方体的单元是聚集单元。简单的来说,基本方体就是数据立方体的维度都是最开始定义的基本维度,聚集单元就是通过基本维度汇聚成的组合维度。
预计算整体数据立方体需要海量的空间,因为n维数据立方体包含2的n次方个方体,再考虑概念分层,实在是不可承受。实际应用中,我们会发现并不是所有的子方体都是我们需要的,有的基本维度组合是没有实际意义的,这导致我们想要预计算的数据立方体实际需要非常少的计算,是一种非常稀疏的数据立方体计算。在很多情况下,相当多的数据立方体可能被大量低度量值的单元占据,例如空值或者默认值等,实际有意义的数据仅占所有基本单元中非常少的一部分,这个时候产生的数据立方体称为冰山立方体,表示实际的有效数据立方体占全维度的数据立方体中非常少的一部分。闭立方体的单元都是基本单元,只占全部基本单元的一部分。外壳则是仅选取数据立方体少数的几个维度建立。总之,这些内容都是为了建立合适的计算方法做的前期定义。
数据立方体有效计算的一般优化技术有:1、排序、散列、分组,对维属性使用这些操作,重新定