spark transform系列__groupByKey

最新推荐文章于 2023-08-17 06:49:29 发布

隔壁老杨hongs

最新推荐文章于 2023-08-17 06:49:29 发布

阅读量1.2k

点赞数 1

文章标签：源代码 spark 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014393917/article/details/50599522

版权

这个操作的作用根据相同的key的所有的value存储到一个集合中的一个玩意.

def groupByKey(): RDD[(K, Iterable[V])] = self.withScope {
groupByKey(defaultPartitioner(self))
}

在做groupByKey的操作时,由于需要根据key对数据进行重新的分区操作,因此这个操作需要有一个partitioner的实例.默认是hash算子.这个操作根据当前操作的RDD中是否有partitioner,同时这个partitioner与当前的传入的partitioner的实例是否相同来判断是否需要执行shuffle操作.

如果是默认的hashPartitioner时,检查spark.default.parallelism配置是否有配置,如果有分区个数按这个配置来设置,否则使用当前进行此groupByKey操作的rdd的partitions来设置.

def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]

= self.withScope {

这里同样与reduceByKey的操作一样,通过调用combineByKeyWithClassTag的函数来进行处理,

最低0.47元/天解锁文章

隔壁老杨hongs

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark transform系列__groupByKey

这个操作的作用根据相同的key的所有的value存储到一个集合中的一个玩意.def groupByKey(): RDD[(K, Iterable[V])] = self.withScope { groupByKey(defaultPartitioner(self))}在做groupByKey的操作时,由于需要根据key对数据进行重新的分区操作,因此这个操作需要有一个partiti
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。