一:kylin概述
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。
1.1 kylin架构图
1.2 Kylin工作原理
Apache Kylin的工作原理本质上是MOLAP(Multidimension On-Line Analysis Processing)Cube,也就是多维立方体分析。是数据分析中非常经典的理论,下面对其做简要介绍。
1.2.1 维度、度量、基数
维度:观察数据的角度,比如员工数据,可以从性别角度来分析,也可以更加细化,从入职时间或者地区的维度来观察。维度是一组离散的值,比如说性别中的男和女,或者时间维度上的每一个独立的日期
度量:即被聚合(观察)的统计值,也就是聚合运算的结果
基数:某个维度的种类数,比如男女,有两种基数
二:环境搭建
三:入门