【Spark】Spark应用执行机制

最新推荐文章于 2024-06-15 07:00:00 发布

JasonDing1354

最新推荐文章于 2024-06-15 07:00:00 发布

阅读量3.9k

点赞数 1

分类专栏：【Spark】文章标签： spark

本文链接：https://blog.csdn.net/JasonDing1354/article/details/46803017

版权

本文详细介绍了Spark应用的执行机制，包括Spark应用的概念、执行模式、核心组件如SparkContext、Driver Program、RDD Graph、Executor和Worker Node的工作原理，以及Job、Stage和Task的调度过程。此外，还探讨了Spark的延迟执行策略和数据管理，以及两种应用提交和执行方式：Driver运行在客户端和在Worker节点上。

摘要由CSDN通过智能技术生成

Spark应用概念

Spark应用（Application）是用户提交的应用程序。执行模式又Local、Standalone、YARN、Mesos。根据Spark Application的Driver Program是否在集群中运行，Spark应用的运行方式又可以分为Cluster模式和Client模式。
下面是Spark应用涉及的一些基本概念：

Application：Spark 的应用程序，用户提交后，Spark为App分配资源，将程序转换并执行，其中Application包含一个Driver program和若干Executor

SparkContext：Spark 应用程序的入口，负责调度各个运算资源，协调各个 Worker
Node 上的 Executor

Driver Program：运行Application的main()函数并且创建SparkContext

RDD Graph：RDD是Spark的核心结构，可以通过一系列算子进行操作（主要有Transformation和Action操作）。当RDD遇到Action算子时，将之前的所有算子形成一个有向无环图（DAG）。再在Spark中转化为Job，提交到集群执行。一个App中可以包含多个Job

Executor：是为Application运行在Worker node上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上。每个Application都会申请各自的Executor来处理任务

Worker Node：集群中任何可以运行Application代码的节点，运行一个或多个Executor进程