（49） Cube 存储原理

最新推荐文章于 2025-02-27 08:56:32 发布

大数据开发工程师-宋权

最新推荐文章于 2025-02-27 08:56:32 发布

阅读量1k

点赞数

分类专栏：离线数仓文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/song_quan_/article/details/118786902

版权

离线数仓专栏收录该内容

59 篇文章

订阅专栏

本文介绍了两种Cube构建算法：逐层构建（Layer）和快速构建（Inmem）。逐层算法利用MapReduce逐层计算，代码简洁但效率受维度影响；快速算法通过内存预聚合减少数据量和MapReduce任务，提高效率。两种算法各有优缺点，适用于不同场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.cube存储原理

2.cube构建算法

1）逐层构建算法（layer）

我们知道，一个 N 维的 Cube ，是由 1 个 N 维子立方体、 N 个 (N-1) 维子立方体、 N*(N-

1)/2 个 (N-2) 维子立方体、 ...... 、 N 个 1 维子立方体和 1 个 0 维子立方体构成，总共有 2^N 个

子立方体组成，在逐层算法中，按维度数逐层减少来计算，每个层级的计算（除了第一层，

它是从原始数据聚合而来），是基于它上一层级的结果来计算的。比如， [Group by A, B] 的

结果，可以基于 [Group by A, B, C] 的结果，通过去掉 C 后聚合得来的；这样可以减少重复计

算；当 0 维度 Cuboid 计算出来的时候，整个 Cube 的计算也就完成了。

每一轮的计算都是一个 MapReduce 任务，且串行执行；一个 N 维的 Cube ，至少需要 N

次 MapReduce Job 。

算法优点：

1 ）此算法充分利用了 MapReduce 的优点，处理了中间复杂的排序和 shuffle 工作，故而

算法代码清晰简单，易于维护；

2 ）受益于 Hadoop 的日趋成熟，此算法非常稳定，即便是集群资源紧张时，也能保证最

终能够完成。

1 ）当 Cube 有比较多维度的时候，所需要的 MapReduce 任务也相应增加；由于 Hadoop

的任务调度需要耗费额外资源，特别是集群较庞大的时候，反复递交任务造成的额外开销会

相当可观；

2 ）由于 Mapper 逻辑中并未进行聚合操作，所以每轮 MR 的 shuffle 工作量都很大，导

致效率低下。

3 ）对 HDFS 的读写操作较多：由于每一层计算的输出会用做下一层计算的输入，这些

Key-Value 需要写到 HDFS 上；当所有计算都完成后， Kylin 还需要额外的一轮任务将这些

文件转成 HBase 的 HFile 格式，以导入到 HBase 中去；

总体而言，该算法的效率较低，尤其是当 Cube 维度数较大的时候。

2 ）快速构建算法（ inmem ）

也被称作 “ 逐段 ”(By Segment) 或 “ 逐块 ”(By Split) 算法，从 1.5.x 开始引入该算法，该算

法的主要思想是，每个 Mapper 将其所分配到的数据块，计算成一个完整的小 Cube 段（包

含所有 Cuboid ）。每个 Mapper 将计算完的 Cube 段输出给 Reducer 做合并，生成大 Cube ，

也就是最终结果。如图所示解释了此流程。

与旧算法相比，快速算法主要有两点不同：

1 ）

Mapper 会利用内存做预聚合，算出所有组合； Mapper 输出的每个 Key 都是不同的，

这样会减少输出到 Hadoop MapReduce 的数据量， Combiner 也不再需要；

2 ）一轮 MapReduce 便会完成所有层次的计算，减少 Hadoop 任务的调配。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据开发工程师-宋权 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。