Spark SparkEnv类的组件介绍

最新推荐文章于 2022-04-19 23:28:36 发布

看朱成碧_

最新推荐文章于 2022-04-19 23:28:36 发布

阅读量355

点赞数 1

分类专栏： Spark 文章标签：大数据 spark SparkEnv 源码

本文链接：https://blog.csdn.net/qq_37163925/article/details/106506134

版权

Spark 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

前言

SparkEnv是spark计算层的基石，不管是Driver还是Executor，都需要依赖SparkEnv来进行计算，它是Spark的执行环境对象，其中包括与众多Executor执行相关的对象。Spark 对任务的计算都依托于 Executor 的能力，所有的 Executor 都有自己的 Spark 的执行环境 SparkEnv。有了 SparkEnv，就可以将数据存储在存储体系中；就能利用计算引擎对计算任务进行处理，就可以在节点间进行通信等。下面我们来分析一下SparkEnv的构成。

注：本人使用的Spark源码版本为2.3.0，IDE为IDEA2019，对源码感兴趣的同学可以点击这里下载源码包，直接解压用IDEA打开即可。

正文

1、SparkEnv组件

首先找到SparkEnv.scala文件，这个文件包含了SparkEnv的实现类，以及各个“组件”，先看SparkEnv的组件有哪些。

val envInstance = new SparkEnv(
      executorId,
      rpcEnv,
      serializer,
      closureSerializer,
      serializerManager,
      mapOutputTracker,
      shuffleManager,
      broadcastManager,
      blockManager,
      securityManager,
      metricsSystem,
      memoryManager,
      outputCommitCoordinator,
      conf)

名称	说明
SecurityManager	主要对账户、权限及身份认证进行设置与管理。
RpcEnv	各个组件之间通信的执行环境。
SerializerManager	Spark 中很多对象在通用网络传输或者写入存储体系时，都需要序列化。
BroadcastManager	用于将配置信息和序列化后的RDD、Job以及ShuffleDependency等信息在本地存储。
MapOutputTracker	用于跟踪Map阶段任务的输出状态，此状态便于Reduce阶段任务获取地址及中间结果。
ShuffleManager	负责管理本地及远程的Block数据的shuffle操作。
MemoryManager	一个抽象的内存管理器，用于执行内存如何在执行和存储之间共享。
NettyBlockTransferService	使用Netty提供的异步事件驱动的网络应用框架，提供Web服务及客户端，获取远程节点上Block的集合。
BlockManagerMaster	负责对BlockManager的管理和协调。
BlockManager	负责对Block的管理，管理整个Spark运行时的数据读写的，当然也包含数据存储本身，在这个基础之上进行读写操作。
MetricsSystem	一般是为了衡量系统的各种指标的度量系统。
OutputCommitCoordinator	确定任务是否可以把输出提到到HFDS的管理者，使用先提交者胜的策略。

2、ExcutorId

每一个Excutor在向Driver端注册时，都会生成一个ExcutorId，对Driver来说，这个ExecutorId就是Excutor的唯一标识，它会一直伴随Excutor，在创建SparkEnv时也会将ExecutorId传进去(因为SparkEnv是进程级别的，每一个excutor都会创建一个SparkEnv，但是差别很小，所以我们可以认为它们是一样的)。

3、rpcEnv

rpcEnv底层调用的是NettyRpcEnvFactory的create()函数，通过Netty技术来实现对外界的通信，比如向RpcEendPoint发送RpcMessage。

4、serializer

Spark使用的序列化器类型，默认使用Java的序列化器org.apache.spark.serializer.JavaSerializer。

5、serializermanager

Spark 中很多对象在通用网络传输或者写入存储体系时，都需要序列化。SparkEnv 中有两个序列化组件，分别是SerializerManager和ClosureSerializer。serializer默认为Java的序列化器org.apache.spark.serializer.JavaSerializer，用户可以通过spark.serializer属性配置其他的序列化实现，如org.apache.spark.serializer.KryoSerializer。而 closureSerializer 的实际类型固定为org.apache.spark.serializer.JavaSerializer，用户不能够自己指定。JavaSerializer采用 Java 语言自带的序列化 API 实现。

6、MapoutTracker

MapOutputTracker 用于跟踪Map阶段任务的输出状态，此状态便于Reduce阶段任务获取地址及中间结果。每个Map任务或者Reduce任务都会有其唯一标识，分别为mapId 和 reduceId。每个Reduce任务的输入可能是多个Map任务的输出，Reduce会到各个Map任务的所在节点上拉取Block，这一过程叫做Shuffle。每个Shuffle过程都有唯一的表示shuffleId。

MapOutputTracker 有两个子类：MapOutputTrackerMaster（for driver） 和 MapOutputTrackerWorker（for executors）；因为它们使用了不同的HashMap来存储元数据。

7、shuffleManager

ShuffleManager负责管理本地及远程的Block数据的shuffle操作。ShuffleManager根据默认的 spark.shuffle.manager 属性，通过反射方式生成的SortShuffleManager的实例。默认使用的是sort模式的SortShuffleManager。

8、broadcastManager

BroadcastManager用于将配置信息和序列化后的RDD、Job以及ShuffleDependency等信息在本地存储。如果为了容灾，也会复制到其他节点上。

9、blockManager

BlockManager负责对Block的管理，只有在BlockManager的初始化方法initialize()被调用后才是有效的。BlockManager 对象在 SparkContext 初始化创建 SparkEnv 执行环境被创建，而在 SparkContext 后续的初始化过程中调用其initialize()完成其初始化。

10、securityManager

SecurityManager主要对帐号、权限以及身份认证进行设置和管理。如果 Spark 的部署模式为 YARN，则需要生成 secret key （密钥）并存储 Hadoop UGI。而在其他模式下，则需要设置环境变量 _SPARK_AUTH_SECRET（优先级更高）或者 spark.authenticate.secret属性指定 secret key （密钥）。最后SecurityManager 中设置了默认的口令认证实例 Authenticator，此实例采用匿名内部类实现，用于每次使用 HTTP client 从 HTTP 服务器获取用户的用户和密码。这是由于 Spark 的节点间通信往往需要动态协商用户名、密码，这种方式灵活地支持了这种需求。

11、metricsSystem

MetricsSystem 是Spark的测量系统，在 SparkEnv 中，度量系统也是必不可少的一个子组件。度量系统根据当前实例是 Driver 还是 Executor 有所区别：

当前实例为 Driver：创建度量系统，并且指定度量系统的实例名为 driver。此时虽然创建了，但是并未启动，目的是等待 SparkContext 中的任务调度器 TaskScheculer 告诉度量系统应用程序ID后再启动。
当前实例为 Executor：设置spark.executor.id属性为当前 Executor 的ID，然后再创建并启动度量系统。

12、memoryManager

MemoryManager 的主要实现有 StaticMemoryManager 和 UnifiedMemoryManager。其中 StaticMemoryManager 是 Spark 早期版本遗留下来的内存管理器实现，可以配置 spark.memory.useLegacyMode 属性来指定，该属性默认为 false，因此默认的内存管理器是 UnifiedMemoryManager；而UnifiedMemoryManager 是在Spark1.6中增加了一个新的内存管理模型，该模型可以使得execution部分和storage部分的内存不像之前的（StaticMemoryManager）由比例参数限定住，而是两者可以互相借用空闲的内存。

13、outputCommitCoordinator

当 Spark 应用程序使用了 Spark SQL （包括 Hive）或者需要将任务的输出保存到 HDFS 时，就会用到输出提交协调器 OutputCommitCoordinator，OutputCommitCoordinator 将决定任务是否可以提交输出到 HDFS。无论是 Driver 还是 Executor，在 SparkEnv 中都包含了子组件 OutputCommitCoordinator。在 Driver 上注册了 OutputCommitCoordinatorEndpoint，在所有 Executor 上的 OutputCommitCoordinator 都是通过 OutputCommitCoordinatorEndpoint 的 RpcEndpointRef 来询问 Driver 上的 OutputCommitCoordinator，是否能够将输出提交到 HDFS。

14、conf

Spark的配置信息。

参考资料：
https://www.cnblogs.com/xia520pi/p/8609625.html#_label2_1

看朱成碧_

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SparkEnv类的组件介绍

前言SparkEnv是spark计算层的基石，不管是Driver还是Executor，都需要依赖SparkEnv来进行计算，它是Spark的执行环境对象，其中包括与众多Executor执行相关的对象。Spark 对任务的计算都依托于 Executor 的能力，所有的 Executor 都有自己的 Spark 的执行环境 SparkEnv。有了 SparkEnv，就可以将数据存储在存储体系中；就能利用计算引擎对计算任务进行处理，就可以在节点间进行通信等。下面我们来分析一下SparkEnv的构成。正文1
复制链接

扫一扫