Spark学习（四）之Spark运行流程

最新推荐文章于 2024-05-06 17:11:33 发布

thyyyyyyy

最新推荐文章于 2024-05-06 17:11:33 发布

阅读量431

点赞数 2

分类专栏：大数据学习文章标签：大数据 spark 分布式

本文链接：https://blog.csdn.net/thyyyyyyy/article/details/84258781

版权

本文详细介绍了Spark的基本概念，包括Application、Driver、Executor等，并深入讲解了Spark的运行流程，从DAGScheduler如何划分Stage，到TaskScheduler如何调度任务。文章还对比了Standalone、Spark on YARN的三种运行模式，包括YARN-Client和YARN-Cluster的区别，以及各自的特点和适用场景。

摘要由CSDN通过智能技术生成

文章目录

一、Spark中的基本概念

（1）Application：表示你的应用程序
（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContext
（3）Executor：某个Application运行在Worker节点上的一个进程，该进程负责运行某些task，并且负责将数据存在内存或者磁盘上。
（4）Worker：集群中可以运行Application代码的节点。在Standalone模式中指的是通过slave文件配置的worker节点，在Spark on Yarn模式中指的就是NodeManager节点。
（5）Task：在Executor进程中执行任务的工作单元，多个Task组成一个Stage
（6）Job：包含多个Task组成的并行计算，是由Action行为触发的
（7）Stage：每个Job会被拆分很多组Task，作为一个TaskSet，其名称为Stage
（8）DAGScheduler：根据Job构建基于Stage的DAG，并提交Stage给TaskScheduler，其划分Stage的依据是RDD之间的依赖关系
（9）TaskScheduler：将TaskSet提交给Worker（集群）运行，每个Executor运行什么Task就是在此处分配的。
在这里插入图片描述

二、Spark的运行流程

基本运行流程

(1)构建Spark Application的运行环境（启动SparkContext），
SparkContext向资源管理器（可以是Standalone、Mesos或YARN）
注册并申请运行Executor资源;

(2)资源管理器分配Executor资源并启动StandaloneExecutorBackend，
Executor运行情况将随着心跳发送到资源管理器上；

(3)SparkContext构建成DAG图，将DAG图分解成Stage，
并把Taskset发送给Task Scheduler。Executor向SparkContext申请Task
(4)Task Scheduler将Task发放给Executor运行同时SparkContext将应用程序
代码发放给Executor。
(5)Task在Executor上运行，运行完毕释放所有资源。