数据立方体的多路数组聚集
最近上课老师讲到数据立方体,讲到了数据立方体的预处理。为什么要预处理?因为如果不预处理的话,每次需要相关信息都需要从头计算,需要消耗大量的时间,因此为了便于选取数据,需要对数据立方体进行预处理。预处理一般分为两种:
- 部分处理(冰山立方体,外壳立方体等等)
- 完全处理,下文就要讨论一种完全处理的方式:多路数组聚集。
用最简单暴力的方法来进行完全处理的话,在应对很大的数据集时,将会做很多重复冗余的工作,因此就有了多路数组聚集的方式,它的基本思想是通过一次遍历,来计算出需要的所有同一维立方体。比如基础立方体是一个3-D立方体,那么用多路数组聚集的方法计算所有2-D立方体,只需要进行一次对基础立方体的遍历,在遍历的过程中同时对所有的2-D立方体进行处理。
虽然只需要一次遍历,但是考虑到节省内存开支,对于遍历的顺序也需要仔细考虑。一般来说,沿着最短的维开始遍历,然后是次短的,以此类推。为什么是这样,举下面一个例子:
- 首先来假设有一个3-D立方体,分为A, B, C三个维度,三个维度的大小分别是:40, 400, 4000;
- 现在将这个立方体沿每个维分为四个部分,那么在A, B, C三个维上,每一个基本段的大小就是10,100,1000。整个立方体也被分为了64个部分,如下图:
- 按序号升序开始遍历。当遍历到4时,2-D立方体(实际是表)中的 b 0 c 0 b_0c_0 b0c0已经计算完毕,同理,遍历到5时, b 1 c 0 b_1c_0