Spark大数据处理讲课笔记3.3 掌握RDD分区

最新推荐文章于 2024-05-07 22:53:47 发布

ting_tu_ran_de

最新推荐文章于 2024-05-07 22:53:47 发布

阅读量200

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/ting_tu_ran_de/article/details/130480724

版权

文章目录
零、本讲学习目标
一、RRD分区
（一）RDD分区概念
（二）RDD分区作用
二、RDD分区数量
（一）RDD分区原则
（二）影响分区的因素
（三）使用parallelize()方法创建RDD时的分区数量
1、指定分区数量
2、默认分区数量
3、分区源码分析
（四）RDD分区方式
（五）使用textFile()方法创建RDD时的分区数量
1、指定最小分区数量
2、默认最小分区数量
3、默认实际分区数量
三、Spark分区器
（一）分区器 - Partitioner抽象类
（二）哈希分区器 - HashPartitioner类
四、自定义分区器
（一）提出问题
（二）解决问题
1、新建自定义分区器
2、使用自定义分区器
3、项目打包上传服务器
4、提交程序运行
零、本讲学习目标
学会如何指定分区数量
会定义与使用自定义分区器
一、RRD分区
（一）RDD分区概念

RDD是一个大的数据集合，该集合被划分成多个子集合分布到了不同的节点上，而每一个子集合就称为分区（Partition）。因此，也可以说，RDD是由若干个分区组成的。

（二）RDD分区作用
在分布式程序中，网络通信的开销是很大的，因此控制数据分布以获得最少的网络传输可以极大的提升程序的整体性能，Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区，系统会根据一个针对键的函数对元素进行分区。虽然Spark不能控制每个键具体划分到哪个节点上，但是可以确保相同的键出现在同一个分区上。
二、RDD分区数量
（一）RDD分区原则
RDD各个分区中的数据可以并行计算，因此分区的数量决定了并行计算的粒度。Spark会给每一个分区分配一个单独的Task任务对其进行计算，因此并行Task的数量是由分区的数量决定的。RDD分区的一个分区原则是使得分区的数量尽量等于集群中CPU核心数量。
（二）影响分区的因素
RDD的创建有两种方式：一种是使用parallelize()方法从对象集合创建；另一种是使用textFile()方法从外部存储系统创建。而RDD分区的数量与RDD的创建方式以及Spark集群的运行模式有关。<

最低0.47元/天解锁文章

ting_tu_ran_de

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark大数据处理讲课笔记3.3 掌握RDD分区

文章目录零、本讲学习目标一、RRD分区（一）RDD分区概念（二）RDD分区作用二、RDD分区数量（一）RDD分区原则（二）影响分区的因素（三）使用parallelize()方法创建RDD时的分区数量1、指定分区数量2、默认分区数量3、分区源码分析（四）RDD分区方式（五）使用textFile()方法创建RDD时的分区数量1、指定最小分区数量2、默认最小分区数量3、默认实际分区数量三、Spark分区器。
复制链接

扫一扫