Understanding Cubert Concepts（二）Co-Partitioned Blocks

最新推荐文章于 2022-07-10 23:15:00 发布

OopsOutOfMemory

最新推荐文章于 2022-07-10 23:15:00 发布

阅读量2.5k

点赞数

分类专栏： cubert 文章标签： cubert partition linkedin 大数据处理 cube

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oopsoom/article/details/46707733

版权

本文深入探讨Cubert的Co-Partitioned Blocks，解释如何通过索引和分区键创建一致性的数据块，强调其在大数据处理中的重要性，并提供了BLOCKGEN操作的使用指南。

摘要由CSDN通过智能技术生成

Understanding Cubert Concepts（二）：Cubert Co-Partitioned Blocks

话接上文Cubert PartitionedBlocks，我们介绍了Cubert的核心Block概念之一的分区块，它是一种根据partitionKeys和cost function来对原始数据进行Redistribution和Transformation来结构化数据，这种结构化的数据是对后续join和cube计算是非常有利的。

好了，本文将着重讲Cubert Block中的另一种Block，Co-PartitionedBlock.

Co-partitioned Blocks

让我们来看下另一种创建blocks的方式：
这种方式就是，依靠一个dataset的index来创建``另一个dataset的blocks.
比如：
有一个dataset P 是通过上文Cubert PartitionedBlocks的BLOCKGEN方式生成的。这个dataset P 的内部会将partitionKeys的全局的range划分为sub-ranges，使得每个sub-range的key范围对应了一个block.（Ps：就是定范围的rangeKeys的数据在一个block内）

举个例子:

BLOCKGEN For DataSet P (PartitionedBlocks)

比如我们对dataset P的parititionKey指定为memberId,那么BLOCKGEN过程后，会生成类似如下的索引：

memberIds from 0 to 1000 => block 0
memberIds from 1001 to

最低0.47元/天解锁文章

OopsOutOfMemory

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

OopsOutOfMemory CSDN认证博客专家 CSDN认证企业博客

码龄11年

80: 原创

9万+: 周排名

172万+: 总排名

80万+: 访问

: 等级

6780: 积分

556: 粉丝

106: 获赞

81: 评论

199: 收藏

私信

关注

热门文章

分类专栏

Spark SQL源码分析系列 11篇
spark 41篇
hive 8篇
scala 8篇
machine learning 2篇
shark 3篇
java 4篇
hadoop 3篇
监控 2篇
mahout
hbase
alogrithm
storm
kafka
flume
etl 1篇
ubuntu 1篇
mesos
nio
tachyon 1篇
docker 1篇
cubert 4篇
helix 1篇

最新评论

Spark Executor Driver资源调度小结
Lii_: 学到的很多，谢谢
jvm调优--查找最耗CPU的代码
万物皆字节: pid 不是线程id，是进程（Process）id哦亲
Docker 安装 on Mac OS X
Tisfy: 真棒！就像：天涯静处无征战，兵气销为日月光。
Scala的foldLeft和foldRight
书忆江南: 补充一下，通俗点说两个括号中的参数是这样：foldLeft(初始值)(如何把多个值从右到左折叠成一个值的函数表达式)，两个括号存放多个传入参数，而不是一个括号放所有传入参数，是用到了“柯里化”
Spark SQL源码分析之核心流程
Leagues: 赞!

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。