Kylin介绍

最新推荐文章于 2024-06-12 08:19:02 发布

我是丰儿你是沙

最新推荐文章于 2024-06-12 08:19:02 发布

阅读量878

点赞数

分类专栏： Kylin 文章标签： kylin

Kylin 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、定义：

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，它能在亚秒内查询巨大的Hive表。

二、Kylin执行查询流程分析

Kylin提供了两种执行SQL查询的方式：jdbc访问和http api的访问，前者的实现实际上是在客户端封装了http api请求，然后获取结果再转换成ResultSet对象，在执行查询之前Kylin服务端会对查询的SQL做缓存，尤其是执行时间比较久的查询，缓存是基于SQL的内容作为key，结果作为value的，所以重复执行一个查询会很快返回的（这是因为Kylin假设数据是只读的，不会被修改）。如果缓存不命中则使用服务器内嵌的Calcite创建一个向Calcite的jdbc connection，然后使用jdbc的方式获取执行结果，在使用Calcite的时候用户只需要给Calcite提供数据，Calcite能够完成其他物理算子的优化和执行，但是对于Kylin来说，它深度定制了Calcite，增加了一些优化的策略，所以总的来说查询可以分成两部分：1、kylin是如何使用calcite完成SQL的解析，获取SQL的上下文；2、kylin如何从预计算的数据中获取数据并进行计算的。

基于MOLAP实现，查询的时候利用Calcite框架，从存储在Hbase的segment表（每一个segment对应着一个htable）获取数据，其实理论上就相当于使用Calcite支持SQL解析，数据从Hbase中读取，中间Kylin主要完成如何确定从Hbase中的哪些表读数据，如何读取数据，以及解析数据的格式。

三、ROLAP、MOLAP和HOLAP联机分析处理区别

OLAP有多种实现方法，根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。

ROLAP表示基于关系数据库的OLAP实现（Relational OLAP）。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了"星型模式"。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为"雪花模式"。特点是将细节数据保留在关系型数据库的事实表中，聚合后的数据也保存在关系型的数据库中。这种方式查询效率最低，不推荐使用。

MOLAP表示基于多维数据组织的OLAP实现（Multidimensional OLAP）。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成"立方块（Cube）“的结构,在MOLAP中对"立方块"的"旋转”、“切块”、"切片"是产生多维数据报表的主要技术。特点是将细节数据和聚合后的数据均保存在cube中，所以以空间换效率，查询时效率高，但生成cube时需要大量的时间和空间。

HOLAP表示基于混合数据组织的OLAP实现（Hybrid OLAP）。如低层是关系型的，高层是多维矩阵型的。这种方式具有更好的灵活性。特点是将细节数据保留在关系型数据库的事实表中，但是聚合后的数据保存在cube中,聚合时需要比ROLAP更多的时间,查询效率比ROLAP高，但低于MOLAP。

我是丰儿你是沙

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Kylin介绍

一、定义：Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，它能在亚秒内查询巨大的Hive表。二、Kylin执行查询流程分析Kylin提供了两种执行SQL查询的方式：jdbc访问和http api的访问，前者的实现实际上是在客户端封装了http api请求，然后获取结果再转换成ResultSet...
复制链接

扫一扫

专栏目录