Kylin系列1-Kylin介绍

一. Kylin概述

Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

Apache Kylin™ 令使用者仅需三步,即可实现超大数据集上的亚秒级查询。

  1. 定义数据集上的一个星形或雪花形模型
  2. 在定义的数据表上构建cube
  3. 使用标准 SQL 通过 ODBC、JDBC 或 RESTFUL API 进行查询,仅需亚秒级响应时间即可获得查询结果

二. Kylin架构

image.png

  1. REST Server
    REST Server 是一套面向应用程序开发的入口点,旨在实现针对Kylin 平台的应用开发工作。 此类应用程序可以提供查询、获取结果、触发cube 构建任务、获取元数据以及获取用户权限等等。另外可以通过Restful 接口实现SQL 查询。

  2. 查询引擎(Query Engine)
    当cube 准备就绪后,查询引擎就能够获取并解析用户查询。它随后会与系统中的其它组件进行交互,从而向用户返回对应的结果。

  3. 路由器(Routing)
    在最初设计时层考虑将Kylin不能执行的查询引导去Hive中继续执行,但在实践后发现Hive与Kylin的速度差异过大,导致用户无法对查询的速度有一致的期望,很可能大多数查询几秒内就返回结果了,而有些查询则要等几分钟到几十分钟,因此体验感非常糟糕。最后这个路由功能在发行版中默认关闭。

  4. 元数据管理工具
    Kylin是一款元数据驱动型应用程序。元数据管理工具是一大关键性组件,用于对保存在Kylin当中的所有元数据进行管理,其中包括最为重要的cube元数据。其他全部组件的正常运作都需以元数据管理工具为基础。 Kylin的元数据存储在hbase中。

  5. 任务引擎
    这套引擎的设计目的在于处理所有离线任务,其中包括shell脚本、Java API以及Map Reduce任务等等。 任务引擎对Kylin当中的全部任务加以管理与协调,从二确保每一项任务都能得到切实执行并解决其间出现的故障。

三. Kylin的特点

  1. 可扩展超快的基于大数据的分析型数据仓库:
    Kylin 是为减少在 Hadoop/Spark 上百亿规模数据查询延迟而设计。

  2. Hadoop ANSI SQL 接口:
    作为一个分析型数据仓库(也是 OLAP 引擎),Kylin 为 Hadoop 提供标准 SQL 支持大部分查询功能。

  3. 交互式查询能力:
    通过 Kylin,用户可以与 Hadoop 数据进行亚秒级交互,在同样的数据集上提供比 Hive 更好的性能。

  4. 多维立方体(MOLAP Cube):
    用户能够在 Kylin 里为百亿以上数据集定义数据模型并构建立方体。

  5. 实时 OLAP:
    Kylin 可以在数据产生时进行实时处理,用户可以在秒级延迟下进行实时数据的多维分析。

  6. 与BI工具无缝整合:
    Kylin 提供与 BI 工具的整合能力,如Tableau,PowerBI/Excel,MSTR,QlikSense,Hue 和 SuperSet。

参考:

  1. https://kylin.apache.org/cn/
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值