Spark Core 解析：RDD

最新推荐文章于 2022-08-27 06:08:44 发布

liam08

最新推荐文章于 2022-08-27 06:08:44 发布

阅读量1.6k

点赞数 1

分类专栏： Scala Spark 文章标签： scala spark

本文链接：https://blog.csdn.net/liam08/article/details/102788865

版权

本文深入解析Spark Core中的RDD，包括其定义、特征、分区与Partitioner、算子、函数、Dependency、RDD分类、Checkpoint、Cache、Broadcast及Accumulators等内容，帮助读者全面了解RDD在Spark中的作用和实现原理。

摘要由CSDN通过智能技术生成

引言

Spark Core是Spark的核心部分，是Spark SQL，Spark Streaming，Spark MLlib等等其他模块的基础, Spark Core提供了开发分布式应用的脚手架，使得其他模块或应用的开发者不必关心复杂的分布式计算如何实现，只需使用Spark Core提供的分布式数据结构RDD及丰富的算子API，以类似开发单机应用的方式来进行开发。

图中最下面那个就是Spark Core啦，日常使用的RDD相关的API就属于Spark Core，而Dataset、DataFrame则属于Spark SQL。

RDD 概览

RDD是Spark Core的用户级API，了解RDD是了解Spark Core的第一步，本文基于Spark 2.x，主要对RDD的特点和组成进行分析。

定义

RDD (Resilient Distributed Dataset，弹性分布式数据集)：

Resilient：不可变的、容错的
Distributed：数据分散在不同节点（机器，进程）
Dataset：一个由多个分区组成的数据集

特征

In-Memory：RDD会优先使用内存Immutable（Read-Only）：一旦创建不可修改Lazy evaluated：惰性执行Cacheable：可缓存，可复用Parallel：可并行处理Typed：强类型，单一类型数据Partitioned：分区的Location-Stickiness：可指定分区优先使用的节点

是Spark中最核心的数据抽象，数据处理和计算基本都是基于RDD。

组成

一个RDD通常由5个要素组成：

一组分区(partition)
一个计算函数
一组依赖(直接依赖的父RDD)
一个分区器 (可选)
一组优先计算位置(e.g. 将Task分配至靠近HDFS块的节点进行计算) (可选)

与传统数据结构对比，只关心访问，不关心存储。通过迭代器访问数据，只要数据能被不重复地访问即可。后面会详细分析各要素。

算子

算子，即对RDD进行变换的操作，按照是否触发Job提交可以分为两大类：

transformation：不会立即执行的一类变换，不会触发Job执行，会生成并返回新的RDD，同时记录下依赖关系。如：map,filter,union,join,reduceByKey。
action: 会立即提交Job的一类变换，不会返回新的RDD，而是直接返回计算结果。如：count,reduce,foreach。

下面对RDD的组成要素进行分析

Partition & Partitioner

为什么要把数据分区？把数据分成若干partition是为了将数据分散到不同节点不同线程，从而能进行分布式的多线程的并行计算。

按什么规则分区？RDD从数据源生成的时候，数据通常是随机分配到不同的partition或者保持数据源的分区，如sc.parallelize(…)，sc.textFile(…)。

这对于某些RDD操作来说是没有问题的，比如filter(),map(),flatMap()，rdd.union(otherRDD)，rdd.intersection(otherRDD)，rdd.subtract(otherRDD)。

但是对于reduceByKey(),foldByKey(),combineByKey(),groupByKey()，sortByKey()，cogroup(), join() ,leftOuterJoin(), rightOuterJoin()这些操作，随机分配分区就非常不友好，会带来很多额外的网络传输。影响一个分布式计算系统性能的最大敌人就是网络传输，所以必须尽量最小化网络传输。

为了减少网络传输，怎么分区才合理？对于reduceByKey操作应该把相同key的数据放到同一分区；对于sortByKey操作应该把同一范围的数据放到同一分区。

可见不同的操作适合不同的数据分区规则，Spark将划分规则抽象为Partitioner(分区器) ，分区器的核心作用是决定数据应归属的分区，本质就是计算数据对应的分区ID。

在Spark Core中内置了2个Partitioner来支持常用的分区规则(Spark MLlib,Spark SQL中有其他的)。