【spark学习】1-DAG什么是“内存计算”

本文深入探讨了Spark的内存计算,包括分布式数据缓存和Stage内的流水线式计算模式。DAG无环图由RDD及其依赖关系组成,Stage划分以Actions算子为起点,Shuffle操作为边界。内存计算通过减少磁盘I/O,提升数据处理效率,同一Stage内算子融合成一个函数,优化内存中数据转换速度,从而提高整体性能。
摘要由CSDN通过智能技术生成

一、一层含义:分布式数据缓存

        Spark允许开发者将分布式数据集缓存到计算节点的内存中,从而进行高效的数据访问。只有需要频繁访问的数据集才有必要用cache,对于一次性数据集使用cache会适得其反。在Spark中,内存计算有两层含义:1、分布式数据缓存;2、Stage内的流水线式计算模式。

二、二层含义:Stage内的流水线式计算模式

1、什么是DAG?

      DAG(Direct Acyclic Graph)无环图,图有两个基本元素:顶点和边,在Spark的DAG中,顶点是一个个RDD,边是RDD间通过dependencies属性构成的父子关系。从开发者的视角出发,DAG的构建是通过在分布式数据集上不停调用算子来完成的。

2、Stages的划分

    从DAG转换的分布式任务在分布式环境中执行,需要经过4个阶段:

  • 回溯DAG并划分Stage
  • 在Stages中创建分布式任务
  • 分布式任务的分发
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值