- 博客(2)
- 资源 (2)
- 收藏
- 关注
原创 Kylin初涉
概述 Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析能力以支持超大规模数据,可以在亚秒内查询巨大的Hive表 与其他引擎对比: Hive、Impala、Presto、Spark-Sql等查询时间是与数据量成正比,数据量非常大的时候,查询性能就下降了。时间复杂度O(N) Kylin:查询时间与数据量无关。时间复杂度O(1) 基本概念
2017-10-24 19:19:02 726
转载 Parquet与ORC:高性能列式存储格式
背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度
2017-10-24 19:13:31 750
Apache Kylin 权威指南
2017-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人