自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

夫唯不争,故天下莫能与之争。

属于你的东西,你就要努力去争取。微信公众号【数据空间站】

  • 博客(2)
  • 资源 (2)
  • 收藏
  • 关注

原创 Kylin初涉

概述 Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析能力以支持超大规模数据,可以在亚秒内查询巨大的Hive表 与其他引擎对比: Hive、Impala、Presto、Spark-Sql等查询时间是与数据量成正比,数据量非常大的时候,查询性能就下降了。时间复杂度O(N) Kylin:查询时间与数据量无关。时间复杂度O(1) 基本概念

2017-10-24 19:19:02 726

转载 Parquet与ORC:高性能列式存储格式

背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度

2017-10-24 19:13:31 750

Apache Kylin 权威指南

Apache Kylin 权威指南 高清版,中文 Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎。它采用 多维立方体预计算技术,可以将大数据的SQL查询速度提升到亚秒级别。 相对于之前的分钟乃至小时级别的查询速度,亚秒级别速度是百倍到千 倍的提升,该引擎为超大规模数据集上的交互式大数据分析打开了大 门。

2017-10-18

Python经典复习题

列出了Python初学者的基础练习题,有助于Python初学者掌握基础语法知识

2014-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除