我们在运用Spark的时候,基本都是在于RDD打交道,实际上处理数据都是通过RDD提供的接口来操作。然而我们底层的数据到底是如何管理的呢?这正是今天我要学习的内容。
RDD是有不同分区组成,我们的操作都是基于不同的分区来完成,而在存储管理角度来讲,RDD是以数据块为单位的。本质上其实是等价的。
存储模块中的数据块形式有:RDD数据块; shuffle数据块;广播变量数据块;任务返回结果数据块(结果一般都是随任务通过akka一起返回Driver,但是结果数据太大就会导致将结果先以Block的形式存放在存储模块中)。
1,存储模块框架:
架构上讲,分为通信层和存储层。
1)通信层面采用主从方式实现通信(主从节点间互换消息);
2)存储层负责提供接口来存储数据(可把数据存储到内存,磁盘,或者远端);
存储模块的两大功能:
1)实现RDD形式的缓存(基于内存/磁盘);
2)实现shuffle数据持久化;
2,存储模块与外界通信的接口:
BlockManager类。
1)BlockManager类通过BlockManagerMaster进行通信;
2)主节点的BlockManager