Spark的RDD分区器

2401_84046645

于 2024-04-17 01:45:49 发布

阅读量331

点赞数 3

分类专栏：程序员文章标签： spark python 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84046645/article/details/137847616

版权

程序员专栏收录该内容

472 篇文章 0 订阅

订阅专栏

（1）只有Key-Value 类型的RDD 才有分区器，非 Key-Value 类型的RDD 分区的值是 None。

（2）每个RDD 的分区 ID 范围：0 ~ (numPartitions - 1)，决定这个值是属于那个分区的。

1. Hash 分区

说明

对于给定的 key，计算其hashCode，并除以分区个数取余。

源码

class HashPartitioner(partitions: Int) extends Partitioner {

require(partitions >= 0, s"Number of partitions ($partitions) cannot be

negative.")

def numPartitions: Int = partitions

def getPartition(key: Any): Int = key match {

case null => 0

case _ => Utils.nonNegativeMod(key.hashCode, numPartitions)

}

override def equals(other: Any): Boolean = other match {

case h: HashPartitioner =>

h.numPartitions == numPartitions

case _ =>

false

}

override def hashCode: Int = numPartitions

}

2. Range分区

说明

将一定范围内的数据映射到一个分区中，尽量保证每个分区数据均匀，而且分区间有序。

源码

class RangePartitioner[K : Ordering : ClassTag, V](

partitions: Int,

rdd: RDD[_ <: Product2[K, V]],

private var ascending: Boolean = true)

extends Partitioner {

// We allow partitions = 0, which happens when sorting an empty RDD under the

default settings.

require(partitions >= 0, s"Number of partitions cannot be negative but found

$partitions.")

private var ordering = implicitly[Ordering[K]]

// An array of upper bounds for the first (partitions - 1) partitions

private var rangeBounds: Array[K] = {

…

}

def numPartitions: Int = rangeBounds.length + 1

private var binarySearch: ((Array[K], K) => Int) =

CollectionsUtils.makeBinarySearch[K]

def getPartition(key: Any): Int = {

val k = key.asInstanceOf[K]

var partition = 0

if (rangeBounds.length <= 128) {

// If we have less than 128 partitions naive search

while (partition < rangeBounds.length && ordering.gt(k,

rangeBounds(partition))) {

partition += 1

}

} else {

// Determine which binary search method to use only once.

partition = binarySearch(rangeBounds, k)

// binarySearch either returns the match location or -[insertion point]-1

if (partition < 0) {

partition = -partition-1

}

if (partition > rangeBounds.length) {

partition = rangeBounds.length

}

}

if (ascending) {

partition

} else {

rangeBounds.length - partition

}

}

override def equals(other: Any): Boolean = other match {

…

}

override def hashCode(): Int = {

…

}

@throws(classOf[IOException])

private def writeObject(out: ObjectOutputStream): Unit =

Utils.tryOrIOException {

…

}

@throws(classOf[IOException])

private def readObject(in: ObjectInputStream): Unit = Utils.tryOrIOException

{

…

}

}

3. 用户自定义分区

说明

用户可以根据自己的需要，自定义分区个数。

案例实操

package com.atguigu.bigdata.spark.core.rdd.part

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注Java获取）

总结

其他的内容都可以按照路线图里面整理出来的知识点逐一去熟悉，学习，消化，不建议你去看书学习，最好是多看一些视频，把不懂地方反复看，学习了一节视频内容第二天一定要去复习，并总结成思维导图，形成树状知识网络结构，方便日后复习。

这里还有一份很不错的《Java基础核心总结笔记》，特意跟大家分享出来

目录：

部分内容截图：

《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！
，特意跟大家分享出来

目录：

[外链图片转存中…(img-ePabXHUe-1713289536660)]

部分内容截图：

[外链图片转存中…(img-YNG39s9M-1713289536660)]

[外链图片转存中…(img-CdZaQ1nY-1713289536660)]
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark的RDD分区器

说明用户可以根据自己的需要，自定义分区个数。案例实操自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。深知大多数Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄99天

472: 原创

-: 周排名

-: 总排名

31万+: 访问

: 等级

1万+: 积分

5097: 粉丝

7281: 获赞

15: 评论

7652: 收藏

私信

关注

热门文章

分类专栏

程序员 472篇

最新评论

Java连接 MySQL详细教程
2301_77362629: 那个代码里面的注册jdbc驱动那里填什么啊
VMware破解虚拟机内存cpu最大限制
孤墨云起: 你好，请问虚拟机最大核设置可以达到64核吗，本人计算机最大是64
Java SSM 项目实战 day02 功能介绍，SSM整合，数据库和IDEA的maven工程搭建，产品信息查询和添加
墨瑾轩: 妙笔生花文中舞，字字珠玑跃纸张。思想如风拂面轻，读来忍俊不禁笑。言辞诙谐藏智慧，趣味横生意悠长。一篇在手乐陶陶，文章妙趣真无双。
【Linux】循序渐进学运维-CentOS7使用yum方式安装nginx
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
MySql-数据库-Schema-设计的性能优化：规范的对象命名
2401_83946224: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。