Kylin系列6-Cube构建原理

最新推荐文章于 2024-06-26 15:05:57 发布

只是甲

最新推荐文章于 2024-06-26 15:05:57 发布

阅读量691

点赞数

分类专栏：大数据和数据仓库 # Kylin 文章标签： kylin big data 大数据

本文链接：https://blog.csdn.net/u010520724/article/details/122632908

版权

大数据和数据仓库同时被 2 个专栏收录

290 篇文章 109 订阅

订阅专栏

Kylin

8 篇文章 2 订阅

订阅专栏

文章目录

一. 维度和度量
二. Cube和Cuboid
三. Cube存储原理
四. Cube的构建算法
- 4.1 逐层构建算法（layer）
- 4.2 快速构建算法（inmem）

一. 维度和度量

维度：即观察数据的角度。比如员工数据，可以从性别角度来分析，也可以更加细化，从入职时间或者地区的维度来观察。维度是一组离散的值，比如说性别中的男和女，或者时间维度上的每一个独立的日期。因此在统计时可以将维度值相同的记录聚合在一起，然后应用聚合函数做累加、平均、最大和最小值等聚合计算。

度量：即被聚合（观察）的统计值，也就是聚合运算的结果。比如说员工数据中不同性别员工的人数，又或者说在同一年入职的员工有多少。

二. Cube和Cuboid

有了维度跟度量，一个数据表或者数据模型上的所有字段就可以分类了，它们要么是维度，要么是度量（可以被聚合）。于是就有了根据维度和度量做预计算的 Cube 理论。
给定一个数据模型，我们可以对其上的所有维度进行聚合，对于 N 个维度来说，组合的所有可能性共有 power(2,n) 种。对于每一种维度的组合，将度量值做聚合计算，然后将结果保存为一个物化视图，称为 Cuboid。所有维度组合的 Cuboid 作为一个整体，称为 Cube。

下面举一个简单的例子说明，假设有一个电商的销售数据集，其中维度包括时间[time]、商品[item]、地区[location]和供应商[supplier]，度量为销售额。那么所有维度的组合就有 power(2,4) = 16 种，如下图所示：

一维度（1D）的组合有：[time]、[item]、[location]和[supplier]4 种；
二维度（2D）的组合有：[time, item]、[time, location]、[time, supplier]、[item, location]、
[item, supplier]、[location, supplier]6 种；
三维度（3D）的组合也有 4 种；
最后还有零维度（0D）和四维度（4D）各有一种，总共 16 种。

注意：
每一种维度组合就是一个 Cuboid，16 个 Cuboid 整体就是一个 Cube。

三. Cube存储原理

因为Hbase的rowkey是按位计算，所以为了提升性能，Kylin的Cube设计中。

维度为key，度量值为value
同一个维度通过0、1、2、3等数字进行区分

四. Cube的构建算法

4.1 逐层构建算法（layer）

我们知道，一个 N 维的 Cube，是由 1 个 N 维子立方体、N 个(N-1)维子立方体、N*(N- 1)/2 个(N-2)维子立方体、…、N 个 1 维子立方体和 1 个 0 维子立方体构成，总共有 2^N 个子立方体组成，在逐层算法中，按维度数逐层减少来计算，每个层级的计算（除了第一层，它是从原始数据聚合而来），是基于它上一层级的结果来计算的。比如，[Group by A, B]的结果，可以基于[Group by A, B, C]的结果，通过去掉 C 后聚合得来的；这样可以减少重复计算；当 0 维度 Cuboid 计算出来的时候，整个 Cube 的计算也就完成了。
每一轮的计算都是一个 MapReduce 任务，且串行执行；一个 N 维的 Cube，至少需要 N次 MapReduce Job。

算法优点：
1）此算法充分利用了 MapReduce 的优点，处理了中间复杂的排序和 shuffle 工作，故而算法代码清晰简单，易于维护；
2）受益于 Hadoop 的日趋成熟，此算法非常稳定，即便是集群资源紧张时，也能保证最终能够完成。

算法缺点：
1）当 Cube 有比较多维度的时候，所需要的 MapReduce 任务也相应增加；由于 Hadoop 的任务调度需要耗费额外资源，特别是集群较庞大的时候，反复递交任务造成的额外开销会相当可观；
2）由于 Mapper 逻辑中并未进行聚合操作，所以每轮 MR 的 shuffle 工作量都很大，导致效率低下。
3）对 HDFS 的读写操作较多：由于每一层计算的输出会用做下一层计算的输入，这些 Key-Value 需要写到 HDFS 上；当所有计算都完成后，Kylin 还需要额外的一轮任务将这些文件转成 HBase 的 HFile 格式，以导入到 HBase 中去；

总体而言，该算法的效率较低，尤其是当 Cube 维度数较大的时候。

4.2 快速构建算法（inmem）

也被称作“逐段”(By Segment) 或“逐块”(By Split) 算法，从 1.5.x 开始引入该算法，该算法的主要思想是，每个 Mapper 将其所分配到的数据块，计算成一个完整的小 Cube 段（包含所有 Cuboid）。每个 Mapper 将计算完的 Cube 段输出给 Reducer 做合并，生成大 Cube，也就是最终结果。如图所示解释了此流程。

与旧算法相比，快速算法主要有两点不同：
1）Mapper 会利用内存做预聚合，算出所有组合；Mapper 输出的每个 Key 都是不同的，这样会减少输出到 Hadoop MapReduce 的数据量，Combiner 也不再需要；
2）一轮 MapReduce 便会完成所有层次的计算，减少 Hadoop 任务的调配。