Spark源码之存储体系简介及缓存cache源码流程图

最新推荐文章于 2024-04-26 15:25:18 发布

Wang Zhuoqun

最新推荐文章于 2024-04-26 15:25:18 发布

阅读量429

点赞数

分类专栏： spark 文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ooeeerrtt/article/details/122481755

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一、Spark存储系统

Spark存储系统，主要可以分为以下四个部分：块管理，块传输，磁盘存储，内存存储。

1、块管理

1.1 BlcokManagerMaster

存在于driver端。在创建SparkEnv的时候创建。

BlockManagerMaster主要用于对BlockManager进行统一的管理，主要负责发送消息。

1.2 BlockManager

即存在于driver端也存在于executor端。在创建SparkEnv的时候创建。

BlockManager主要负责对本地或远端节点上的内存、磁盘及堆外内存中Block的管理。

在创建BlockManager时，会将刚创建的BlockManagerMaster注册进BlockManager。

其内部管理者磁盘存储及内存存储的组件。

1.3 BlcokInfoManager

BlockInfoManager主要提供对BlockInfo的管理，及对Block锁的管理。

infos：负责存储BlockId和BlockInfo的映射关系。

writeLockByTask：负责存储任务尝试id与块写锁的映射关系。

readLocksByTask：负责存储任务尝试id与块读锁的映射关系。

2、磁盘存储

2.1 DiskBlockManager

为逻辑block与数据写入磁盘的位置之间建立逻辑的映射关系。

文件的一级目录为文件名hash值对一级目录总数取余。

文件的二级目录为文件名hash值对二级目录总数取商。

localDirs：本地目录数组。

subDirs：本地目录二维数组。

2.2 DiskStore

负责实际的磁盘存储逻辑。

主要提供了以字节形式写入和以字节形式读取block数据的方法。

blockSizes：存储blockId与其文件大小的映射关系。

3、内存存储

3.1 MemoryManager

为逻辑block与数据写入内存的位置之间建立逻辑的映射关系。

onHeapStorageMemoryPool：堆内存储内存池

offHeapStorageMemoryPool：堆外存储内存池

onHeapExecutionMemoryPool：堆内计算内存池

offHeapExecutionMemoryPool：堆外计算内存池

默认使用的是其实现类UnifiedMemoryManager。

3.2 MemoryStore

负责实际的内存存储逻辑。

主要提供了以字节形式写入和以字节形式读取block数据的方法，和以字符形式写入和以字节形式读取block数据的方法。

entries：blockId与MemoryEntry（使用的内存大小）的映射关系。

onHeapUnrollMemoryMap：task尝试id与其在堆内内存上的block的内存之和的映射关系。

offHeapUnrollMemoryMap：task尝试id与其在堆外内存上的block的内存之和的映射关系。

4、块传输

4.1 BlockTransferService

负责块的传输。

提供同步及异步进行看文件上传下载的方法。

二、cache源码流程图

首先关于cache算子。大家都知道rdd是懒执行的，即cache算子并不会立即生效，而是等实际计算的时候再生效。

其源码部分实际就是更改触发cache算子的rdd的stroeLevel属性，即更改了存储级别。等到实际迭代计算的时候再根据rdd的存储级别采用不同的处理方法。关于cache算子部分的源码分析网上有很多，逻辑也很简单，此处不赘述。

此处从rdd的iterator（迭代执行入口函数）开始，简单分析缓存的实际执行逻辑及与存储系统的交互。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark源码之存储体系简介及缓存cache源码流程图

一、Spark存储系统Spark存储系统，主要可以分为以下四个部分：块管理，块传输，磁盘存储，内存存储。1、块管理1.1 BlcokManagerMaster存在于driver端。在创建SparkEnv的时候创建。BlockManagerMaster主要用于对BlockManager进行统一的管理，主要负责发送消息。1.2 BlockManager即存在于driver端也存在于executor端。在创建Spa...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。