Spark技术内幕：Storage 模块整体架构

最新推荐文章于 2021-02-18 20:55:01 发布

anzhsoft

最新推荐文章于 2021-02-18 20:55:01 发布

阅读量1.7w

点赞数 4

分类专栏：架构探索 Spark Spark技术内幕文章标签： spark spark storage

本文链接：https://blog.csdn.net/anzhsoft/article/details/42837245

版权

本文深入探讨Spark的Storage模块，重点解析BlockManager的角色和职责，包括其与其他模块的交互、Block的管理和持久化。BlockManager运行在Driver和Executor上，管理RDD的partition，并通过BlockManagerMaster、BlockManagerMasterActor等组件协调数据存储和删除。此外，文章还介绍了MemoryStore、DiskStore和TachyonStore等存储实现。

摘要由CSDN通过智能技术生成

Storage模块负责了Spark计算过程中所有的存储，包括基于Disk的和基于Memory的。用户在实际编程中，面对的是RDD，可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化；持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据，也都是由Storage模块管理的。可以说，RDD实现了用户的逻辑，而Storage则管理了用户的数据。本章将讲解Storage模块的实现。

1.1 模块整体架构

org.apache.spark.storage.BlockManager是Storage模块与其他模块交互最主要的类，它提供了读和写Block的接口。这里的Block，实际上就对应了RDD中提到的partition，每一个partition都会对应一个Block。每个Block由唯一的Block ID（org.apache.spark.storage.RDDBlockId）标识，格式是"rdd_" + rddId + "_" + partitionId。

BlockManager会运行在Driver和每个Executor上。而运行在Driver上的BlockManger负责整个Job的Block的管理工作；运行在Executor上的BlockManger负责管理该Executor上的Block，并且向Driver的BlockManager汇报Block的信息和接收来自它的命令。