Kylin
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
Jeremy_Lee123
AI Everywhere!
展开
-
Kylin之概述和环境搭建
一、Kylin定义Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。相关术语:1)Data Warehouse(数据仓库):数据仓库是一个各种数据(包括历史数据和当前数据)的中心存储系统,是BI( business int...原创 2020-02-08 23:58:59 · 637 阅读 · 0 评论 -
Kylin之快速入门
需求:实现按照维度(工作地点)统计员工信息一、数据准备在Hive中创建数据,分别创建部门和员工外部表,并向表中导入数据。(1)原始数据/root/dept.txt文件和/root/emp.txt文件 (2)建表语句创建部门表create external table if not exists default.dept(deptno int,dname strin...原创 2020-02-09 00:13:37 · 476 阅读 · 0 评论 -
Kylin之Cube构建原理
目录一、Cube构建流程1.1、创建中间表1.2、将中间表的数据均匀分配到不同的文件1.3、创建维度字典表1.4、多维度构建cube(重要)1.5、Hbase K-V映射1.6、将cube data转成HFile格式并导入HBase二、Cube构建算法2.1、逐层构建算法(layer)2.2、快速构建算法(inmem)一、Cube构建流程1.1、创建...原创 2020-02-10 21:19:38 · 1339 阅读 · 0 评论 -
Kylin之Cube构建优化
在没有采取任何优化措施的情况下,Kylin会对每一种维度的组合进行预计算,每种维度的组合的预计算结果被称为Cuboid。假设有4个维度,我们最终会有24 =16个Cuboid需要计算。但在现实情况中,用户的维度数量一般远远大于4个。假设用户有10 个维度,那么没有经过任何优化的Cube就会存在210 =1024个Cuboid;而如果用户有20个维度,那么Cube中总共会存在220 =10485...原创 2020-02-10 21:36:00 · 687 阅读 · 0 评论 -
Kylin之BI工具集成
可以与Kylin结合使用的可视化工具很多,例如:ODBC:与Tableau、Excel、PowerBI等工具集成 RestAPI:与JavaScript、Web网页集成 JDBC:与Saiku、BIRT等Java工具集成 Kylin开发团队还贡献了Zepplin的插件,也可以使用Zepplin来访问Kylin服务。官网文档:https://kylin.apache.org/cn/doc...原创 2020-02-10 22:11:56 · 1314 阅读 · 0 评论 -
Kylin之Kafka流式构建
前提条件1、Kylin将Kafka抽象成一个等同于Hive的数据源,也就是说Kylin是作为消费者从Kafka拉取数据的。因此Kylin需要依赖Kafka的客户端Jar包,因此我们需要设置环境变量KAFKA_HOME,指向kafka的客户端Jar的路径。eg: export KAFKA_HOME=/usr/lib/kafka/client2、写入Kafka中的数据为相同格式的JSO...原创 2020-02-11 10:32:50 · 1214 阅读 · 0 评论