Kylin实战:建立cube的优化

本文深入探讨了Kylin中建立cube的优化策略,包括维度组合优化和Rowkey优化。通过理解Mandatory维度、hierarchy维度、derived维度和联合维度的概念,可以有效地减少维度组合带来的存储浪费和查询性能影响。此外,详细介绍了Rowkey的编码、顺序和分片优化,以提升查询效率和数据分布的均匀性。
摘要由CSDN通过智能技术生成

目录

背景

Kylin的维度组合优化

1、 Mandatory维度

2、 hierarchy维度

3、 derived维度

4、 联合维度

Kylin的Rowkey优化

1、编码

2、顺序

3、分片


背景

了解OLAP Cube的人都会知道,建立cube的过程中往往会出现“维度爆炸”问题。Kylin是典型的Multidimensional OLAP应用,牺牲灵活性,使用预计算来提升性能,以实现对超大数据集的秒级响应。在Kylin建立cube的过程中,如果默认选择所有维度的组合,那么维度组合将是2^N(N为维度个数)。

在工业领域,一般建立的宽表可能会有大几十个的维度,甚至达到上百。但是平常使用的时候,也许只有不到一半的维度组合能超过20个维度。大部分维度组合的个数可能都是10多个。这样一来,会造成存储的极大浪费,也会影响Kylin的查询性能。

Kylin的维度组合优化

kylin从1.5版本后引入了一个新的特性:聚合组(Aggregation Groups)。

 

如下是官网提出的两种方法:

1、首先,我们可以移除那些不一定是维度的维度。例如,假设有一个日期查找表,其中保存的cal_dt是PK列,以及许多派生列,如week_begin_dt、month_begin_dt。尽管分析人员需要week_begin_dt作为维度,但我们可以对它进行删减,因为它总是可以从维度cal_dt中计算出来,这就是“派生”优化。

 

2、其次,可以修剪聚合组之间的某些组合。这是本文的主要讨论,我们称之为“组合修剪”。例如,如果将某个维度指定为“强制”,则可以删除所有没有该维度的组合。如果维A,B,C形成“层次”关系,则仅保留与A,AB或ABC的组合。在v1.5之前,Kylin还具有“聚合组”概念,该概念也可用于组合修剪。但是,它的文献记录不多,很难理解(我也发现很难解释)。无论如何,我们将跳过它,因为我们将重新定义“聚合组”的真正含义。

 

下文主要讲解第二种方法-----维度剪枝优化:

在kylin1.5之后,有四种类型的聚合组,每一种类型的聚合组也即是一种特定的规则。通过这四种规则来达到剪枝优化的目的。

 

1、 Mandatory维度

这种维度意味着每次查询的group by中都会携带的,将某一个dimension设置为manda

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值