Spark job提交源码解析

最新推荐文章于 2024-08-17 11:34:40 发布

Adobee Chen

最新推荐文章于 2024-08-17 11:34:40 发布

阅读量145

点赞数

分类专栏： spark入门到精通文章标签： spark

本文链接：https://blog.csdn.net/qq_24186017/article/details/120273140

版权

spark入门到精通专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在DAGScheduler中提交Job,其中调用dagScheduler.handleJobSubmitted()方法创建
ResultStage,在创建ResultStage的根据ShuffleDependency和普通dependency创建stage,普通OneToOneDependency创建ShuffleMapStage，ShuffleDependency创建ResultStage。
最后提交stage,调用submitStage(finalStage)

在submitStage(finalStage)方法中，调用submitMissingTasks提交tasks,

taskScheduler.submitTasks（），根据本地化规则优先级是1.进程本地化2.节点本地化3.NO_PREF4.机架本地化和Any规则将task序列化LaunchTask到executor

其中在DAGScheduler中进行阶段的划分，根据依赖是否是ShuffleDependency划分stage

executor任务的执行

CoarseGrainedExecutorBackend中接收（receive方法中）到TaskScheduler的LaunchTask方法，执行executor.launchTask(this, taskDesc)，启动一个线程池去运行task一个个的线程

流程总结图

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Adobee Chen

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark job提交源码解析

Spark服务之间进程之间调用使用RPC,网络通信使用nettyNetty: 异步非阻塞式IO(AIO),其中BIO:阻塞式IO,NIO非阻塞式IO
复制链接

扫一扫

专栏目录

Spark-内核源码解析.docx

12-05

Spark 内核源码解析 Spark 是一个大规模数据处理框架，它的核心原理和架构组件对开发者和研究人员来说非常重要。为了深入了解 Spark 的内部机制，我们需要对其内核源码进行深入分析。 Application/App 在 Spark ...

Apache Spark源码走读之2 -- Job的提交与运行

01-06

在SparkShell中，用户提交的代码会首先被解析为Driver Program，然后利用SparkContext实例来创建和执行各个任务。 Spark作业的提交与运行过程大致可以分为以下几个步骤： 1. 创建SparkContext实例：用户在Spark...

参与评论您还未登录，请先登录后发表或查看评论

spark job提交流程源码

zhaolq1024的博客

12-05

288

目录 #Job提交流程概览 #Task类型 1.Task 2.DAGTask 3.ResultTask 4.ShuffleMapTask #Stage划分 sc.runJob DAGScheduler.runJob submitStage() getMissingParentStages() getShuffleMapStage() #Task提交 submitM...

spark提交job源码分析

最自由的笑的博客

03-07

133

collect()算子源码分析对于任何行动算子都会触发sparkjob的提交，查看collect()算子源码 *sc.runJob(this, (iter: Iterator[T]) => iter.toArray) //传入了一个函数f，它将每个分区迭代器转换为数组 *runJob(rdd, func, 0 until rdd.partitions.length) //多传入了一个0---分区长度的range集合 *val cleanedFunc = clean(func)

Spark 2.x 提交Job源码浅析

孙大迪迪的博客

11-17

253

大家都知道，spark job的提交是触发了Action操作，现在我在RDD.scala中找到collect算子，在这下面是有一个runjob方法 def collect(): Array[T] = withScope { val results = sc.runJob(this, (iter: Iterator[T]) =&amp;amp;gt; iter.toArray) Array.con...

Spark中job、stage、task的划分+源码执行过程分析

weixin_42073629的博客

12-02

292

SparkControlProcesses Driver Application entry point that contains the SparkContext instance Master In charge of scheduling and resource orchestration  Worker Responsible for node stat...

Spark源码分析之一：Job提交运行总流程概述

weixin_34242819的博客

02-14

204

Spark是一个基于内存的分布式计算框架，运行在其上的应用程序，按照Action被划分为一个个Job，而Job提交运行的总流程，大致分为两个阶段： 1、Stage划分与提交（1）Job按照RDD之间的依赖关系是否为宽依赖，由DAGScheduler划分为一个个Stage，并将每个Stage提交给Task...

spark源码阅读笔记(详)

05-16

### Spark源码解析要点 #### 一、Spark概述与特性 **Spark** 是一款由加州大学伯克利分校AMP实验室研发的数据处理框架，它极大简化了大数据应用的开发流程，支持多种编程语言如Java、Scala、Python和R，使得开发者...

spark源码阅读笔记

11-16

本文将深入探讨Spark的核心组件和工作原理，通过源码阅读笔记来解析Spark的内部机制。首先，Spark的核心架构由Master、Worker和Driver三部分组成。Master节点在Spark集群中起到协调者的作用，它管理所有的Worker...

(spark源码)job生成和提交

IAmListening的博客

06-01

808

摘要 spark中, Job的提交可以分为四个阶段 RDD生成相互间的依赖关系. 实际上依赖关系是RDD的固有属性, 也就是说, 每个RDD生成时, 依赖就已经被生成了 DVG过程, 将Action算子对应的RDD作为finalStage, 由后往前递归的遍历所有RDD, 并根据宽窄依赖划分Stage 根据partition数量, 生成对应数量的Task Worker调用executor执行运算...

Spark源代码阅读（一）

define_us的专栏

11-13

5885

Spark源码解析之任务提交（spark-submit）篇

热门推荐

学习，我们是认真的

07-12

1万+

今天主要分析一下Spark源码中提交任务脚本的处理逻辑，从spark-submit一步步深入进去看看任务提交的整体流程,首先看一下整体的流程概要图：接下来按照图中结构出发一步步看源码：spark-submit#!/usr/bin/env bash# # Licensed to the Apache Software Foundation (ASF) under one or more # con

【Spark集群部署系列四】Spark on YARN介绍和环境部署(个人笔记，供参考)

qq_65231448的博客

08-14

949

通常如果我们想要一个稳定的生产Spark环境, 那么最优的选择就是构建:HA StandAlone集群.。不过在企业中, 服务器的资源总是紧张的, 许多企业不管做什么业务,都基本上会有Hadoop集群. 也就是会有YARN集群。对于企业来说,在已有YARN集群的前提下在单独准备Spark StandAlone集群,对. 所以, 在企业中,多数场景下,会将集群中。YARN本身是一个资源调度框架, 负责对运行在内部的计算框架进行资源调度管理。

【赵渝强老师】Spark SQL的数据模型：DataFrame

赵渝强老师CSDN博客主页

08-15

951

Scala中提供了一种特殊的类，用case class进行声明，中文也可以称作“样本类”。样本类是一种特殊的类，经过优化以用于模式匹配。样本类类似于常规类，带有一个case 修饰符的类，在构建不可变类时，样本类非常有用，特别是在并发性和数据传输对象的上下文中。在Spark SQL中也可以使用样本类来创建DataFrame的表结构。（1）定义员工表的结构Schema。（2）将员工数据读入RDD。（3）关联RDD和Schema。（4）生成DataFrame。（5）查询员工表中的数据，结果如下图所示。

Spark2.x 入门：套接字流（DStream）

跟着大数据和AI去旅行

08-14

537

Spark Streaming可以通过Socket端口监听并接收数据，然后进行相应处理。新建NetworkWordCount.scala代码文件，请在该文件中输入如下内容： package org.apache.spark.examples.streaming import org.apache.spark._ import org.apache.spark.streaming._ im

【赵渝强老师】Spark Streaming中的DStream