Spark入门——4: Spark的存储管理模块

        我们在运用Spark的时候,基本都是在于RDD打交道,实际上处理数据都是通过RDD提供的接口来操作。然而我们底层的数据到底是如何管理的呢?这正是今天我要学习的内容。

    RDD是有不同分区组成,我们的操作都是基于不同的分区来完成,而在存储管理角度来讲,RDD是以数据块为单位的。本质上其实是等价的。

       存储模块中的数据块形式有:RDD数据块; shuffle数据块;广播变量数据块;任务返回结果数据块(结果一般都是随任务通过akka一起返回Driver,但是结果数据太大就会导致将结果先以Block的形式存放在存储模块中)。

       1,存储模块框架:

    架构上讲,分为通信层和存储层。

        1)通信层面采用主从方式实现通信(主从节点间互换消息);

        2)存储层负责提供接口来存储数据(可把数据存储到内存,磁盘,或者远端);

        存储模块的两大功能:

       1)实现RDD形式的缓存(基于内存/磁盘);

        2)实现shuffle数据持久化;

    2,存储模块与外界通信的接口:

        BlockManager类。

        1)BlockManager类通过BlockManagerMaster进行通信;

        2)主节点的BlockManager

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值