Kylin架构原理及构建过程

最新推荐文章于 2023-08-08 09:11:41 发布

谁的青春是一朵花？

最新推荐文章于 2023-08-08 09:11:41 发布

阅读量436

点赞数

分类专栏：大数据数仓建模文章标签： kylin

本文链接：https://blog.csdn.net/weixin_42476127/article/details/110733103

版权

大数据同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

数仓建模

3 篇文章 0 订阅

订阅专栏

所有维度组合的Cuboid作为一个整体，称为Cube。

Kylin架构

在这里插入图片描述

从hive中获取元数据信息，通过cube构建引擎将一个个key、value数据存入hbase中。

1）REST Server

REST Server是一套面向应用程序开发的入口点，旨在实现针对Kylin平台的应用开发工作。此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。另外可以通过Restful接口实现SQL查询。

2）查询引擎（Query Engine）

当cube准备就绪后，查询引擎就能够获取并解析用户查询。它随后会与系统中的其它组件进行交互，从而向用户返回对应的结果。

3）路由器（Routing）

在最初设计时曾考虑过将Kylin不能执行的查询引导去Hive中继续执行，但在实践后发现Hive与Kylin的速度差异过大，导致用户无法对查询的速度有一致的期望，很可能大多数查询几秒内就返回结果了，而有些查询则要等几分钟到几十分钟，因此体验非常糟糕。最后这个路由功能在发行版中默认关闭。

4）元数据管理工具（Metadata）

Kylin是一款元数据驱动型应用程序。元数据管理工具是一大关键性组件，用于对保存在Kylin当中的所有元数据进行管理，其中包括最为重要的cube元数据。其它全部组件的正常运作都需以元数据管理工具为基础。 Kylin的元数据存储在hbase中。

5）任务引擎（Cube Build Engine）

这套引擎的设计目的在于处理所有离线任务，其中包括shell脚本、Java API以及Map Reduce任务等等。任务引擎对Kylin当中的全部任务加以管理与协调，从而确保每一项任务都能得到切实执行并解决其间出现的故障。

Cube存储原理

在这里插入图片描述

111+000前面的三个一代表存在的维度，后面代表具体的值。

参数设置：

kylin.cube.algorithm：指定 Cube 构建的算法，参数值可选 auto，layer 和 inmem，默认值为 auto，即 Kylin 会通过采集数据动态地选择一个算法 (layer or inmem)，如果用户很了解 Kylin 和自身的数据、集群，可以直接设置喜欢的算法

逐层构建算法（layer）：一层一个mr，慢，稳定，每一步都会落盘。
在这里插入图片描述

算法优点：

1）此算法充分利用了MapReduce的优点，处理了中间复杂的排序和shuffle工作，故而算法代码清晰简单，易于维护；

2）受益于Hadoop的日趋成熟，此算法非常稳定，即便是集群资源紧张时，也能保证最终能够完成。

算法缺点：

1）当Cube有比较多维度的时候，所需要的MapReduce任务也相应增加；由于Hadoop的任务调度需要耗费额外资源，特别是集群较庞大的时候，反复递交任务造成的额外开销会相当可观；

2）由于Mapper逻辑中并未进行聚合操作，所以每轮MR的shuffle工作量都很大，导致效率低下。

3）对HDFS的读写操作较多：由于每一层计算的输出会用做下一层计算的输入，这些Key-Value需要写到HDFS上；当所有计算都完成后，Kylin还需要额外的一轮任务将这些文件转成HBase的HFile格式，以导入到HBase中去；

总体而言，该算法的效率较低，尤其是当Cube维度数较大的时候。

快速构建算法（inmem）：快，只跑一次mr，在mapper端会进行combiner预聚合，但是可能会有OOM

在这里插入图片描述

同一个mapper中同一维度同一数值进行预聚合，reduce端只需要对不同mapper端的数据进行聚合即可。

与旧算法相比，快速算法主要有两点不同：

1） Mapper会利用内存做预聚合，算出所有组合；Mapper输出的每个Key都是不同的，这样会减少输出到Hadoop MapReduce的数据量，Combiner也不再需要；

2）一轮MapReduce便会完成所有层次的计算，减少Hadoop任务的调配。

谁的青春是一朵花？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kylin架构原理及构建过程

所有维度组合的Cuboid作为一个整体，称为Cube。Kylin架构从hive中获取元数据信息，通过cube构建引擎将一个个key、value数据存入hbase中。1）REST ServerREST Server是一套面向应用程序开发的入口点，旨在实现针对Kylin平台的应用开发工作。此类应用程序可以提供查询、获取结果、触发cube构建任务、获取元数据以及获取用户权限等等。另外可以通过Restful接口实现SQL查询。2）查询引擎（Query Engine）当cube准备就绪后，查询引擎就能
复制链接

扫一扫