cubert
文章平均质量分 88
OopsOutOfMemory
http://weibo.com/oopsoom
展开
-
LinkedIn Cubert安装指南
最近工作需要,调研了一下LinkedIn开源的用于复杂大数据分析的高性能计算引擎Cubert。自己测了下,感觉比较适合做报表统计中的Cube计算和Join计算,效率往往比Hive高很多倍,节省资源和时间。下面看下这个框架的介绍: Cubert完全用Java开发,并提供一种脚本语言。它是针对报表领域里经常出现的复杂连接和聚合而设计的。Cubert使用MeshJoin算法处理大时间窗口下的大数据集,原创 2015-06-18 11:41:31 · 3015 阅读 · 0 评论 -
Understanding Cubert Concepts(二)Co-Partitioned Blocks
Understanding Cubert Concepts(二):Cubert Co-Partitioned Blocks话接上文Cubert PartitionedBlocks,我们介绍了Cubert的核心Block概念之一的分区块,它是一种根据partitionKeys和cost function来对原始数据进行Redistribution和Transformation来结构化数据,这种结构化的原创 2015-07-01 10:54:56 · 2553 阅读 · 0 评论 -
LinkedIn Cubert 实践指南
LinkedIn Cubert安装指南Understanding Cubert Concepts(一)Partitioned BlocksUnderstanding Cubert Concepts(二)Co-Partitioned Blocks原创 2015-07-01 11:25:50 · 1998 阅读 · 0 评论 -
Understanding Cubert Concepts(一)Partitioned Blocks
Understanding Cubert Concepts:Cubert Concepts对于Cubert,我们要理解其核心的一些概念,比如BLOCK。这些概念也是区别于传统的关系型范式(Pig,Hive)等数据处理流程并使得Cubert在大规模数据下JOIN和Aggregation中取胜的关键因素。(自己测下来,CUBE的计算效率比Hive高好多倍。)BLOCKCubert定义了一个BLOCK的概原创 2015-06-29 17:59:16 · 2026 阅读 · 0 评论