Kylin实战：建立cube的优化

最新推荐文章于 2024-05-29 12:37:56 发布

田野里的秋刀鱼仔

最新推荐文章于 2024-05-29 12:37:56 发布

阅读量385

点赞数

分类专栏： Kylin 文章标签： Kylin 大数据即席查询 OLAP

本文链接：https://blog.csdn.net/anmo1221/article/details/102614811

版权

本文深入探讨了Kylin中建立cube的优化策略，包括维度组合优化和Rowkey优化。通过理解Mandatory维度、hierarchy维度、derived维度和联合维度的概念，可以有效地减少维度组合带来的存储浪费和查询性能影响。此外，详细介绍了Rowkey的编码、顺序和分片优化，以提升查询效率和数据分布的均匀性。

摘要由CSDN通过智能技术生成

背景

了解OLAP Cube的人都会知道，建立cube的过程中往往会出现“维度爆炸”问题。Kylin是典型的Multidimensional OLAP应用，牺牲灵活性，使用预计算来提升性能，以实现对超大数据集的秒级响应。在Kylin建立cube的过程中，如果默认选择所有维度的组合，那么维度组合将是2^N（N为维度个数）。

在工业领域，一般建立的宽表可能会有大几十个的维度，甚至达到上百。但是平常使用的时候，也许只有不到一半的维度组合能超过20个维度。大部分维度组合的个数可能都是10多个。这样一来，会造成存储的极大浪费，也会影响Kylin的查询性能。

Kylin的维度组合优化

kylin从1.5版本后引入了一个新的特性：聚合组（Aggregation Groups）。

如下是官网提出的两种方法：

1、首先，我们可以移除那些不一定是维度的维度。例如，假设有一个日期查找表，其中保存的cal_dt是PK列，以及许多派生列，如week_begin_dt、month_begin_dt。尽管分析人员需要week_begin_dt作为维度，但我们可以对它进行删减，因为它总是可以从维度cal_dt中计算出来，这就是“派生”优化。

2、其次，可以修剪聚合组之间的某些组合。这是本文的主要讨论，我们称之为“组合修剪”。例如，如果将某个维度指定为“强制”，则可以删除所有没有该维度的组合。如果维A，B，C形成“层次”关系，则仅保留与A，AB或ABC的组合。在v1.5之前，Kylin还具有“聚合组”概念，该概念也可用于组合修剪。但是，它的文献记录不多，很难理解（我也发现很难解释）。无论如何，我们将跳过它，因为我们将重新定义“聚合组”的真正含义。

下文主要讲解第二种方法-----维度剪枝优化：

在kylin1.5之后，有四种类型的聚合组，每一种类型的聚合组也即是一种特定的规则。通过这四种规则来达到剪枝优化的目的。

1、 Mandatory维度

这种维度意味着每次查询的group by中都会携带的，将某一个dimension设置为manda

最低0.47元/天解锁文章

田野里的秋刀鱼仔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kylin实战：建立cube的优化

目录背景Kylin的维度组合优化1、 Mandatory维度2、 hierarchy维度3、 derived维度4、联合维度Kylin的Rowkey优化1、编码2、顺序3、分片背景了解OLAP Cube的人都会知道，建立cube的过程中往往会出现“维度爆炸”问题。Kylin是典型的Multidimensional OLAP应用，牺牲灵活性，使用预计...
复制链接

扫一扫