RDD分区器

cluse_ld

于 2022-08-20 18:41:43 发布

阅读量109

点赞数

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Laoddaaa/article/details/126442949

版权

spark 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

Spark目前支持Hash分区和Range分区以及用户自定义分区。Hash分区为当前的默认分区。分区器直接决定了 RDD 中分区的个数、RDD 中每条数据经过 Shuffle 后进入哪个分区，进而决定了 Reduce 的个数。

只有 Key-Value 类型的 RDD 才有分区器，非 Key-Value 类型的 RDD 分区的值是 None
每个 RDD 的分区 ID 范围：0 ~ (numPartitions - 1)，决定这个值是属于那个分区的。

Hash 分区：对于给定的 key，计算其 hashCode,并除以分区个数取余
Range 分区：将一定范围内的数据映射到一个分区中，尽量保证每个分区数据均匀，而且分区间有序。要求RDD中的KEY类型必须可以排序。

在这里插入图片描述

RDD分区原理

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD分区器

RDD分区器
复制链接

扫一扫

专栏目录

博客等级

码龄3年

187
原创

22
点赞

82
收藏

8
粉丝

关注

私信

热门文章

分类专栏

23春招复习 2篇
大数据面经 2篇
zookeeper 5篇
计算机网络 4篇
jdk 3篇
集合 3篇
LeetCode 27篇
spark 18篇
hive 10篇
MapReduce 5篇
JUC 15篇
JVM 1篇
剑指 Offer 60篇
scala 4篇
hbase 2篇
sqoop 1篇
kafka 8篇
flume 3篇
hadoop 4篇
Yarn 2篇
hdfs 5篇

最新评论

携程面经1
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
ArrayList和LinkedList的区别
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
同步锁的分类
路遥万里: 太全面了吧
CC23 最长的连续元素序列长度
cluse_ld: 你不是我第一个铁粉天理难容
CC23 最长的连续元素序列长度
路遥万里: 博主666

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。