Spark[二]——Spark的组件们[Application、Job、Stage、TaskSet、Task]

本文详细介绍了Spark的主要组件,包括Application、Job、Stage、TaskSet和Task。Application是用户编写的Spark程序,由多个Job组成。Job是由Action算子触发的计算作业,每个Job根据RDD的宽依赖被切分成Stage。Stage是调度阶段,TaskSet是一组无Shuffle关系的Task集合,而Task则对应RDD的一个分区,是处理的基本单位。Stage和Task的关系类似于MapReduce,每个Stage内的Task可以在一个Executor内完成,无需Shuffle。
摘要由CSDN通过智能技术生成

Spark[二]——Spark的组件们[Application、Job、Stage、TaskSet、Task]

一、Application

        就是用户编写的Spark应用程序,提交到Spark后,Spark为Application分配资源,将程序转换并执行;其中,一个Application包含多个Job

二、Job

​        由Action算子触发生成的由一个或多个Stage组成的计算作业;
        这些Action算子主要包括:reduce、collect、count、first、take、takeSample、takeOrdered、saveAsTextFile、saveAsSequenceFile、saveAsObject、countByKey;

三、Stage

        调度阶段,一个taskSet对应的调度阶段,每个Job会根据RDD的宽依赖关系被切分为Stage,每个Stage都包含一个taskSet;

        导致Shuffle的算子:repartition, repartitionAndSortWithinPartitions, coalesce, reduceByKey, groupByKey, sortByKey, join, cogroup等。这些算子主要分为三类:

  • 1.重分区:一般情况下重分区都会导致Shuffle,须在整个集群中对之前所有的分区数据进行随机、均匀的打乱,然后放入下
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值