spark学习起步（三）--作业提交

最新推荐文章于 2020-09-14 07:25:11 发布

linhao19891124

最新推荐文章于 2020-09-14 07:25:11 发布

阅读量334

点赞数

分类专栏： spark 文章标签：大数据 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linhao19891124/article/details/72889973

版权

spark 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

一个application运行期间可以执行多个spark job（作业），有多少作业是由多少个action操作的rdd决定。几次action，就有几个job

每个job 分为多个stage，stage划分是依据shuffleDependency（宽依赖）。每次遇到一个，就要新产生一个stage。shuffle类算子会产生新的stage。从RDD角度看，ShuffledRDD，CoGroupedRDD，SubtractedRDD会产生ShuffleDependency。

因此在我们的开发过程中，能避免则尽可能避免使用reduceByKey、sortByKey，GroupByKey，cogroupbyKey，cartensian，join、distinct、repartition等会进行shuffle的算子，尽量使用map类的非shuffle算子。这样的话，没有shuffle操作或者仅有较少shuffle操作的Spark作业，可以大大减少性能开销。

每个stage有多少个task（任务）是由多少partition决定。一个partition可以由一个task来处理。partition是由pationtioner（分区器）决定。

牛人可以根据业务的数据分布情况自定义分区器，让每个partition得到的数据量大小差不多，避免数据倾斜。

抽象类Task有两个子类实现分别是ResultTask和ShuffleMapTask。ResultTask会将计算结果返回到driver application，而ShuffleMapTask是把RDD中的元素依照ShuffleDependency中的定义发送到多个bucket中。

任务提交过程中主要涉及Driver和Executor两个节点：

Driver侧在任务提交过程中最主要解决如下几个问题：

1，RDD依赖性分析，生成DAG

2，根据RDD　ＤＡＧ将Ｊｏｂ分割为多个Stage

3，Stage一经确认，即生成相应的Task，将task分发到Executor

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark学习起步（三）--作业提交

一个application运行期间可以执行多个spark job（作业），有多少作业是由多少个action操作的rdd决定。几次action，就有几个job每个job 分为多个stage，stage划分是依据shuffleDependency（宽依赖）。每次遇到一个，就要新产生一个stage。shuffle类算子会产生新的stage。从RDD角度看，ShuffledRDD，CoGrou
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。