自己对Spark的application job stage partition block的一些概念见解

最新推荐文章于 2024-07-02 10:08:26 发布

c_t_f_

最新推荐文章于 2024-07-02 10:08:26 发布

阅读量246

点赞数 1

分类专栏： spark 文章标签： spark概念

本文链接：https://blog.csdn.net/c_t_f_/article/details/81156579

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

application是包括driver 和excutor的所有程序是以提交的时候为划分标准的

job是以action算子为维度的我要控制台上产出三个结果 count collect foreach 就是三个job

stage 一组并行的task 是map reduce的类似划分阶段

partition不能跨越文件也就是说一个文件可以两个partition可以2个task并行计算
但是反过来不可以一个task不能执行两个文件
而文件是可以跨block的一个200mb的文件是2个block块也就可以说分成让3个partition让3个task并行去进行计算

不知道我这样理解有没有偏差请各位大数据同僚指正

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

c_t_f_

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

LinkedIn Spark-TFRecord partitionBy案例实战

段智华的博客

06-20

649

LinkedIn Spark-TFRecord partitionBy案例实战目录Spark将完全支持TFRecordLinkedIn Spark-TFRecord案例体验Spark-TFRecord partitionBy案例实战 Spark将完全支持TFRecord Spark将完全支持TFRecord LinkedIn Spark-TFRecord案例体验 LinkedIn Spark-TFRecord案例体验 Spark-TFRecord partitionBy案例实战 package spark

Spark的Stage到Task的生成过程

weixin_41812379的博客

10-31

358

RDD任务的划分主要可以分为四块：Application、Job、Stage 和 Task。 Application：初始化一个 SparkContext 即生成一个 Application； Job：一个 Action 算子就会生成一个 Job； Stage：Stage 等于宽依赖(ShuffleDependency)的个数加 1，因为最后一个Stage是ResultStage； Task：一个 Stage 中，最后一个 RDD 的分区个数就是 Task 的个数。Driver根据Stage内的最后RDD

参与评论您还未登录，请先登录后发表或查看评论

Spark中job、stage、task的划分+源码执行过程分析

最新发布

lzt2008的专栏

07-02

263

一个application里可以触发多次action ,触发一次action形成一个job，一个job对应一个DAG,一个DAG可以根据shuffle切分成多个stage,一个stage里可以有多个taskset 一个taskset中可以有多个task（计算逻辑相同的task，只是处理的数据不一样）。

Spark入门知识（application, job, stage, task）

abcd1101的专栏

01-20

485

http://litaotao.github.io/deep-into-spark-exection-model 1.what这个技术是什么官方文档定义 spark 里，job，stage，task 的概念： application（应用）：其实就是用spark-submit提交的程序 job: A job is triggered by an action, like count...

spark中job、stage、task、partition、executor等概念理解

wj1298250240的博客

11-24

1829

概念 1. job定义：我们都知道，在spark rdd中，有action、transform操作，当真正触发action时，才真正执行计算，此时产生一个job任务。 2. stage定义：以shuffle为界，当在一个job任务中涉及shuffle操作时，会进行stage划分，产生一个或多个stage。 3. task定义：一个stage可能包含一个或者多个task任务，ta...

Spark中application、job、stage、task之间的关系

少年时。

06-07

819

一个application就是一个应用程序，包含了客户端所有的代码和计算资源一个action操作对应一个DAG有向无环图，即一个action操作就是一个job 一个job中包含了大量的宽依赖，按照宽依赖进行stage划分，一个job产生了很多个stage 一个stage中有很多分区，一个分区就是一个task，即一个stage中有很多个task ...

Spark中Task，Partition，RDD、节点数、Executor数、core数目的关系和Application，Driver，Job，Task，Stage理解

zhaoguowei的博客

10-25

485

梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为I...

Spark源码学习: stage的划分方式

weixin_40828249的博客

09-09

392

之前学习Spark的时候, 关于宽窄依赖以及stage划分, 一直都知道几句话: 宽依赖和窄依赖的一个重要区别是有无shuffle 根据宽依赖来进行stage划分在DAG中进行反向解析, 遇到宽依赖就断开, 遇到窄依赖就把当前的RDD加入到当前的阶段中虽然知道了, 但是好像跟背书没什么区别. 还是得知其所以然的直接看涉及stage划分的这段源码吧. 定位起来也很简单, 写一个Action...

spark源码学习（二）- DAGSchedular 划分job,提交stage的过程

u013560925的博客

03-24

609

背景了解dagSchedular提交job，就需要了解什么是job,什么是stage,如果我们写了一段程序，其中调用了多个spark算子，但是我们知道，实际在计算的时候，只有在遇到action算子的时候，才会触发计算操作，而这个计算操作就是一个job，所以说一次action操作就会触发提交一个job，比如collect和first操作都会触发sparkcontext的runjob...

Spark中的Application、Job、Stage与Task区别

一亩三分地

05-05

1747

首先，我先将这四种的定义列出来，之后咱们再通过简单代码进行分析。 RDD任务切分中间分为：Application、Job、Stage和Task （1）Application：初始化一个SparkContext即生成一个Application；（2）Job：一个Action算子就会生成一个Job；（3）Stage：Stage等于宽依赖的个数加1；（4）Task：一个Stage阶段中...

整理spark中的job stage task几个概念以及运行案例

11-10

4679

Job ：是一个比task 和 stage 更大的逻辑概念，job 可以认为是我们在driver 或是通过spark-submit 提交的程序中一个action ，在我们的程序中有很多action 所有也就对应很多的jobs Stage：是spark 中一个非常重要的概念，在一个job 中划分stage 的一个重要依据是否有shuflle 发生，也就是是否

spark概念解析

勇心在馨

09-06

145

1. job定义：在spark rdd中，有action、transform操作，当真正触发action时，才真正执行计算，此时产生一个job任务。 2. stage定义：以shuffle为界，当在一个job任务中涉及shuffle操作时，会进行stage划分，产生一个或多个stage。 3. task定义：一个stage可能包含一个或者多个task...

Spark中RDD的宽窄依赖 & 图解RDD执行中Application、Job、Stage、Task的关系

攻城狮Kevin

02-18

1764

目录 1. RDD之间的依赖（以分区为说明） 2. RDD任务划分原理 3. Spark中RDD执行阶段划分示意图 1. RDD之间的依赖（以分区为说明）窄依赖：每一个父RDD的Partition中的数据，最多被子RDD的一个Partition使用（单分区 -> 单分区）；窄依赖在源码里是OneToOneDependency 宽依赖：同一个父RD...

Application、Job、Stage和task 之间的关系

qq_42564058的博客

12-07

861

RDD任务切分中间分为：Application、Job、Stage和Task Application：初始化一个SparkContext即生成一个Application； Job：一个Action算子就会生成一个Job； Stage：Stage等于宽依赖(ShuffleDependency)的个数加1； Task：一个Stage阶段中，最后一个RDD的分区个数就是Task的个数。注意：Application->Job->Stage->Task每一层都是1对n的关系。 ...

Spark[二]——Spark的组件们[Application、Job、Stage、TaskSet、Task]

qq_35583915的博客

10-29

593

Spark[二]——Spark的组件们[Application、Job、Stage、TaskSet、Task] 一、Application 就是用户编写的Spark应用程序，提交到Spark后，Spark为Application分配资源，将程序转换并执行；其中，一个Application包含多个Job；二、Job 由Action算子触发生成的由一个或多个Stage组成的计算作业；这些Action算子主要包括：reduce、collect、count、first、take、takeSa

从 WordCount 执行流程理解 Spark 中 application 、 job 、 stage 、 task 的关系

分享数据科学家的自我修养

04-26

616

从 WordCount 执行流程理解 Spark 中 application 、 job 、 stage 、 task 的关系

Spark_Spark中 Stage, Job 划分依据 , Job, Stage, Task 高阶知识

迎难而上

08-15

2267

Task内部有一个成员变量：preferredLocations表明了这个Task的位置偏好，这个变量的值是根据Task的数据的位置得到的，可以是一个hostName或者execotorId。例如，如果Task的数据是在192.168.5.101和192.168.5.102这两台机器上，那么：forExecutor是一个HashMap，key为executorId，value是preferredLocations为这个executor的所有task的taskId。

理解Spark性能调优：Executor、Stage与并行度优化

"Spark性能调优的关键点包括理解Spark的基本架构、Stage的划分、CPU核心利用率、Executor配置、partition与并行度优化等。优化的目标是提高计算效率、减少资源浪费，确保系统的稳定运行。" 在Apache Spark的性能...