spark的app如何执行

最新推荐文章于 2021-08-29 12:10:40 发布

韩运畅

最新推荐文章于 2021-08-29 12:10:40 发布

阅读量536

点赞数

分类专栏： # Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41634872/article/details/105889778

版权

Spark 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

App -> job -> stage -> task

app中的每一个action算子都会触发一个job，每个job根据宽依赖划分为若干stage,每个stage有若干窄依赖的tasks,tasks并行执行，task中后面的transformation的输入是前面的输出。每个job的结果都会汇总到driver中。

问题1：如何划分tasks?

一个stage中所有由黑线连接的pipeline都代表一个可以并行执行的task，task的数量由该stage最后一个RDD的partition的数量决定。其中，task分为两类，resulyTask和mapShuffledTask

//对于OneToOne的narrow dependency
在这里插入图片描述
//对于N:1的narrow denpendency，只不过一个task要读取多个partition中的数据。

问题2：什么是宽依赖  窄依赖？

官方解释是,窄依赖：子RDD的每个partition只依赖父RDD一个或一部分的partition。同时也说了，Operations which can cause a shuffle include repartition operations like repartition and coalesce, ‘ByKey operations (except for counting) like groupByKey and reduceByKey, and join operations like cogroup and join.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark的app如何执行

App -> job -> stage -> taskapp中的每一个action算子都会触发一个job，每个job根据宽依赖划分为若干stage,每个stage有若干窄依赖的tasks,tasks并行执行，task中后面的transformation的输入是前面的输出。每个job的结果都会汇总到driver中。问题1：如何划分tasks?一个stage中所有由黑线连...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。