2017年10月_JNSimba

12月 11月 10月 09月 07月 06月 05月 03月 02月

原创 Kylin初涉

概述 Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析能力以支持超大规模数据，可以在亚秒内查询巨大的Hive表与其他引擎对比： Hive、Impala、Presto、Spark-Sql等查询时间是与数据量成正比，数据量非常大的时候，查询性能就下降了。时间复杂度O(N) Kylin：查询时间与数据量无关。时间复杂度O(1) 基本概念

2017-10-24 19:19:02 726

转载 Parquet与ORC：高性能列式存储格式

背景随着大数据时代的到来，越来越多的数据流向了Hadoop生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop生态圈的快速发展过程中，涌现了一批开源的数据分析引擎，例如Hive、Spark SQL、Impala、Presto等，同时也产生了多个高性能的列式存储格式，例如RCFile、ORC、Parquet等，本文主要从实现的角度

2017-10-24 19:13:31 750

Apache Kylin 权威指南

Apache Kylin 权威指南高清版，中文 Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎。它采用多维立方体预计算技术，可以将大数据的SQL查询速度提升到亚秒级别。相对于之前的分钟乃至小时级别的查询速度，亚秒级别速度是百倍到千倍的提升，该引擎为超大规模数据集上的交互式大数据分析打开了大门。

2017-10-18

Python经典复习题

列出了Python初学者的基础练习题，有助于Python初学者掌握基础语法知识

2014-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人