Kylin Cube构建优化
联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到
深入理解数据的目的。
多维数据组织OLAP的使用一般有两种背景条件:
Ø 查询需求一般是统计结果,为数据经过聚合函数计算得到的统计值,并非直接面向原始数据,访问原始记录的频率也不那么高。
Ø 聚合是按照维度进行的,一般业务需求可控,维度聚合有限,不会随着数据膨胀而迅速增长。
Apache Kylin介绍
Apache Kylin(以下简称Kylin)是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据。
Kylin除了传统大数据分析的大规模并行处理和列式存储之外,还对数据进行了预计算处理,从而大幅减少了在 Hadoop/Spark上百亿规模数据查询延迟,达到秒级甚至亚秒级响应。
Kylin大致处理分三步,如下:
1定义数据集上的一个