1.cube存储原理
2.cube构建算法
1)逐层构建算法(layer)
我们知道,一个
N
维的
Cube
,是由
1
个
N
维子立方体、
N
个
(N-1)
维子立方体、
N*(N-
1)/2
个
(N-2)
维子立方体、
......
、
N
个
1
维子立方体和
1
个
0
维子立方体构成,总共有
2^N
个
子立方体组成,在逐层算法中,按维度数逐层减少来计算,
每个层级的计算
(除了第一层,
它是从原始数据聚合而来),
是基于它上一层级的结果来计算的。
比如,
[Group by A, B]
的
结果,可以基于
[Group by A, B, C]
的结果,通过去掉
C
后聚合得来的;这样可以减少重复计
算;当
0
维度
Cuboid
计算出来的时候,整个
Cube
的计算也就完成了。
每一轮的计算都是一个
MapReduce
任务,且串行执行;一个
N
维的
Cube
,至少需要
N
次
MapReduce Job
。

算法优点:
1
)此算法充分利用了
MapReduce
的优点,处理了中间复杂的排序和
shuffle
工作,故而
算法代码清晰简单,易于维护;
2
)受益于
Hadoop
的日趋成熟,此算法非常稳定,即便是集群资源紧张时,也能保证最
终能够完成。
1
)当
Cube
有比较多维度的时候,所需要的
MapReduce
任务也相应增加;由于
Hadoop
的任务调度需要耗费额外资源,特别是集群较庞大的时候,反复递交任务造成的额外开销会
相当可观;
2
)由于
Mapper
逻辑中并未进行聚合操作,所以每轮
MR
的
shuffle
工作量都很大,导
致效率低下。
3
)对
HDFS
的读写操作较多:由于每一层计算的输出会用做下一层计算的输入,这些
Key-Value
需要写到
HDFS
上;当所有计算都完成后,
Kylin
还需要额外的一轮任务将这些
文件转成
HBase
的
HFile
格式,以导入到
HBase
中去;
总体而言,该算法的效率较低,尤其是当
Cube
维度数较大的时候。
2
)快速构建算法(
inmem
)

也被称作
“
逐段
”(By Segment)
或
“
逐块
”(By Split)
算法,从
1.5.x
开始引入该算法,该算
法的主要思想是,每个
Mapper
将其所分配到的数据块,计算成一个完整的小
Cube
段(包
含所有
Cuboid
)。每个
Mapper
将计算完的
Cube
段输出给
Reducer
做合并,生成大
Cube
,
也就是最终结果。如图所示解释了此流程。

与旧算法相比,快速算法主要有两点不同:
1
)
Mapper
会利用内存做预聚合,算出所有组合;
Mapper
输出的每个
Key
都是不同的,
这样会减少输出到
Hadoop MapReduce
的数据量,
Combiner
也不再需要;
2
)一轮
MapReduce
便会完成所有层次的计算,减少
Hadoop
任务的调配。