spark任务提交流程详解

最新推荐文章于 2024-04-26 16:43:28 发布

hi蜗牛慢跑

最新推荐文章于 2024-04-26 16:43:28 发布

阅读量80

点赞数

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lidaxueh_heart/article/details/130434309

版权

当我们执行spark任务的时候，通过spark ui 我们可以看到stages页面有stage id列表以及job页面下的job列表。这些信息是我们提交spark框架作业后，spark对我们对我们的作业进行了拆分然后按照特定顺序来执行的。下面是结合代码以及自己的理解，梳理下spark任务提交流程

spark任务提交流程图

spark作业提交流程

流程步骤补充说明

step5 ：创建stage，遇到宽依赖，划分一个新的stage，得到parent stage,并通过递归调用获取到所有的stage，先执行“辈分最高”的stage

step7：当我们执行task的时候，首先会获取该task对应的最优location，我们可以在spark ui 可以看到stage下各个task的Locality Level水平。当然task并不一定会在最优的location执行，可能因为datanode和nodemanager不在同一节点、executor出错分配到其他的executor等原因

step12:向executorEndPoint发送任务，理论上executor会接收到该task的“任务描述”，后面文章会介绍executor接收到“任务描述”后处理的逻辑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark任务提交流程详解

当我们执行spark任务的时候，通过spark ui 我们可以看到stages页面有stage id列表以及job页面下的job列表。这些信息是我们提交spark框架作业后，spark对我们对我们的作业进行了拆分然后按照特定顺序来执行的。下面是结合代码以及自己的理解，梳理下spark任务提交流程spark任务提交流程图spark作业提交流程流程步骤补充说明step5 ：创建...
复制链接

扫一扫

hi蜗牛慢跑 CSDN认证博客专家 CSDN认证企业博客

码龄10年

16: 原创

21万+: 周排名

83万+: 总排名

3万+: 访问

: 等级

500: 积分

3: 粉丝

15: 获赞

7: 评论

48: 收藏

私信

关注

热门文章

分类专栏

storm 1篇
PersonalLift
JAVA基础 2篇
Spark 1篇
hive
分布式 2篇
hbase 2篇
hadoop 2篇
算法 2篇
kylin 1篇
kafka 1篇

最新评论

spark 向elasticsearch 优化写入数据
maketubu7: 请问pyspark写入大数据集到es有相关经验吗师兄
spark 向elasticsearch 优化写入数据
hi蜗牛慢跑回复子秦1117: 我说错的，我的是saveToEs，这个方式不是有多个重载方法吗？调用接受参数是 Rdd 和Map[String,String]的方法啊
spark 向elasticsearch 优化写入数据
子秦1117 回复 hi蜗牛慢跑: 也许是版本问题吧，elasticsearch-hadoop6.4中EsSpark只有saveToEs方法了，不过参数是一样的
spark 向elasticsearch 优化写入数据
hi蜗牛慢跑回复子秦1117: 我最后保存所用的方法是：EsSpark.saveAsEs（rdd:Rdd,conf:Map[String,String]），直接在conf 中配置的，跟es client的配置方法是一样的。可以自行google下

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。