Kylin构建Cube过程详解

最新推荐文章于 2024-07-10 10:10:26 发布

码农的世界，你不懂

最新推荐文章于 2024-07-10 10:10:26 发布

阅读量490

点赞数

本文链接：https://blog.csdn.net/u010395024/article/details/102781260

版权

本文详细介绍了Kylin构建Cube的过程，包括创建Cube模型、数据分布优化、维度字典构建、Cuboid统计信息保存、HTable创建、Spark驱动的Cube构建、HFile转换及HBase加载等步骤，旨在理解Kylin如何通过预计算提升查询效率。

摘要由CSDN通过智能技术生成

[size=13.3333px]在使用Kylin的时候，最重要的一步就是创建cube的模型定义，即指定度量和维度以及一些附加信息，然后对cube进行build，当然我们也可以根据原始表中的某一个string字段（这个字段的格式必须是日期格式，表示日期的含义）设定分区字段，这样一个cube就可以进行多次build，每一次的build会生成一个segment，每一个segment对应着一个时间区间的cube，这些segment的时间区间是连续并且不重合的，对于拥有多个segment的cube可以执行merge，相当于将一个时间区间内部的segment合并成一个。下面开始分析cube的build过程。

2 Cube示例

[size=13.3333px]以手机销售为例，表SALE记录各手机品牌在各个国家，每年的销售情况。表PHONE是手机品牌，表COUNTRY是国家列表，两表通过外键与SALE表相关联。这三张表就构成星型模型，其中SALE是事实表，PHONE、COUNTRY是维度表。

[size=13.3333px]

[size=13.3333px]现在需要知道各品牌手机于2010-2012年，在中国的总销量，那么查询sql为：

SELECT b.`name`, c.`NAME`, SUM(a.count)FROM SALE AS a LEFT JOIN PHONE AS b ON a.`pId`=b.`id` LEFT JOIN COUNTRY AS c ON a.`cId`=c.`id` WHERE a.`time` >= 2010 AND a.`time` <= 2012 AND c.`NAME` = "中国"GROUP BY b.`NAME`

[size=13.3333px]其中时间(time), 手机品牌(b.name，后文用phone代替)，国家(c.name，后文用country代替)是维度，而销售数量(a.count)是度量。手机品牌的个数可用于表示手机品牌列的基度。各手机品牌在各年各个国家的销量可作为一个cuboid，所有的cuboid组成一个cube，如下图所示：