Apache Spark中的有向无环图DAG_spark写入hdfs的dag图片-CSDN博客

Apache Spark中的有向无环图DAG

由DATAFLAIR TEAM ·更新· 2018年11月21日

1.目的

在本Apache Spark教程中，我们将了解Apache Spark中的DAG，DAG Scheduler是什么，Spark中对有向无环图的需求，如何在Spark中创建DAG以及如何帮助实现容错。我们还将学习DAG在RDD中的工作方式，以及DAG在Spark中的优势，该优势在Apache Spark和Hadoop MapReduce之间产生了差异。

（向非循环图）DAG中的Apache火花 是一组顶点和边，其中顶点代表RDDS和边缘代表上RDD施加操作。在Spark DAG中，每个边沿从序列中的较早方向到最后一个方向。在调用Action时，创建的DAG提交给DAG Scheduler，后者进一步将图形划分为任务阶段。

Apache Spark中的有向无环图DAG

2. Apache Spark中的DAG是什么？

DAG 是无向环的有限直接图。顶点和边的数量有限，其中每个边从一个顶点指向另一个顶点。它包含一个顶点序列，以便每个边缘从该序列的较早方向到最后一个方向。它是MapReduce模型的严格概括。与MapReduce等其他系统相比，DAG操作可以更好地进行全局优化。在更复杂的工作中，DAG的情况变得清晰起来。

Apache Spark DAG允许用户进入阶段并在任何阶段进行详细扩展。在阶段视图中，将扩展属于该阶段的所有RDD的详细信息。调度程序根据所应用的各种转换将Spark RDD分为多个阶段。（您可以参考此链接来学习RDD

详细的转换和操作）每个阶段都由基于RDD分区的任务组成，这些任务将并行执行相同的计算。这里的图是指导航，有向图和非循环图是指完成的方式。

3. Spark中需要有向无环图

Hadoop MapReduce 的局限性成为在Spark中引入DAG的关键点。通过MapReduce进行的计算分三个步骤：

从HDFS读取数据。
然后应用Map和Reduce操作。
计算结果将写回到HDFS。

每个MapReduce操作彼此独立，并且HADOOP不知道接下来要执行哪个Map reduce。有时，对于某些迭代而言，读取和写回两个map-reduce作业之间的即时结果无关紧要。在这种情况下，稳定存储（HDFS）中的内存或磁盘内存将被浪费。

分多个步骤进行，直到上一个作业完成为止，所有作业均从头开始阻塞。结果，复杂的计算可能需要很长时间并且数据量很小。

在Spark中时，会形成连续计算阶段的DAG（有向无环图）。通过这种方式，我们可以优化执行计划，例如最大程度地减少洗牌数据。相反，它是通过调整每个MapReduce步骤在MapReduce中手动完成的。

4. DAG在Spark中如何工作？

解释器是第一层，使用Scala解释器，Spark通过一些修改来解释代码。
在Spark控制台中输入代码时，Spark会创建一个运算符图。
当我们在高层调用Spark RDD上的 动作时，Spark会将运算符图提交给DAG Scheduler。
在DAG Scheduler 中将操作员划分为任务阶段。阶段包含基于输入数据分区的任务。DAG调度程序将操作员管道在一起。例如，地图操作员在一个阶段中进行调度。
这些阶段将传递到“ 任务计划程序”。它通过集群管理器启动任务。阶段的依赖性对于任务计划程序是未知的。
该工人在slave上执行任务。