Kylin的技术框架

Kylin系统可以分为在线查询和离线构建两部分,技术框架如图所示,在线查询模块主要处于上半区,而离线构建则处于下半区。

092336_inCP_2746716.png

先看离线构造部分,左侧的 Hadoop Hive 作为数据源,保存着待分析的用户数据。根据元数据的定义,下方的构建引擎从数据源抽取数据,并构建Cube。数据以关系表的形式输入,且必须符合星型模型,如果是复杂的雪花模型,则先用视图转化为星型模型,再使用Kylin。MapReduce是当前主要的构造技术,后续的版本也支持Spark。将构建好的Cube存储到Hbase中。

完成了离线构造之后,用户可以从上方查询系统发送SQL进行查询分析。Kylin提供了各种 Rest API、JDBC/ODBC接口。无论从哪个接口进入,SQL最终都会来到Rest服务层,再转交给查询引擎进行处理。这里的SQL是基于数据源的关系模型书写的,用户并不知道Cube这个概念,用户只需要根据关系模型写SQL语句,然后由查询引擎解析SQL,生成基于关系表的逻辑执行计划,将其转译为基于Cube的物理执行计划,最后查询预计算生成的Cube并产生结果。整个过程不会访问原始的数据源,只会去访问Hbase中根据关系模型生成的Cube。这边主要是两个关键点:1.用户只需要写SQL就可以快速查询到想要的结果,底层的Cube构建已经被封装,用户不需要知道。2.查询时只会去Cube(原始数据根据数据维度构建好的数据Cubeid集合)中去查询数据,不会重新再遍历原始数据进行查询。

查询引擎下方有一个路由选择,最初设计是考虑将Kylin不能执行的查询引导到Hive中去执行查询,后来发现两者的速度差异太大,,体验比较不好。所以在后续的版本中,都是默认关闭的,在架构图中也是用虚线表示。

在离线构造部分,从左到右,有三个用矩形虚线围起来的数据源抽象、构建引擎抽象和存储引擎抽象,这三个作为”可拓展架构“,Hive、MapReduce、HBase只是默认实现,具体可根据需求进行二次开发,将其中的技术更换。如Kafka替换Hive以支持实时分析,Spark替换MapReduce以提高Cube的构建速度,Kudu替换Hbase等。可拓展架构也带来了额外的灵活性,比如可以允许多个引擎同时并存。例如Kylin可以同时对接Hive、Kafka和其他第三方数据源;或者用户可以为不用的Cube指定不同的构建引擎或存储引擎,以期达到最极致的性能和功能定制。

转载于:https://my.oschina.net/134596/blog/1824351

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值