spark的分区器hashpartitioner、RangePartitioner，分布式排序原理

最新推荐文章于 2024-05-11 18:29:42 发布

请叫我超哥

最新推荐文章于 2024-05-11 18:29:42 发布

阅读量831

点赞数

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39719415/article/details/107844410

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

spark大多数算子使用的都是默认分区器HashPartitioner，HashPartitioner会对数据的key进行 key.hascode%numpartitions 计算,得到的数值会放到对应的分区中，这样能较为平衡的分配数据到partition。
RangePartitioner：
它是在排序算子中会用到的分区器，比如sortbykey、sortby、orderby等。该分区器先对输入的数据的key做采样，来估算Key的分布，然后按照指定的排序切分range，尽量让每个partition对应的range里的key分布均匀。
sortBykey作为spark中常用的分布式排序算子，使用的就是RangePartitioner，通过切分range，各partitioner之间是有序的，各个partition内部再进行排序，从而达到了整体数据的有序性。
如下图：
在这里插入图片描述

请叫我超哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark的分区器hashpartitioner、RangePartitioner，分布式排序原理

spark大多数算子使用的都是默认分区器HashPartitioner，HashPartitioner会对数据的key进行 key.hascode%numpartitions 计算,得到的数值会放到对应的分区中，这样能较为平衡的分配数据到partition。RangePartitioner：它是在排序算子中会用到的分区器，比如sortbykey、sortby、orderby等。该分区器先对输入的数据的key做采样，来估算Key的分布，然后按照指定的排序切分range，尽量让每个partition对应的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。