大数据开发-Spark-一文理解Spark中的Stage,Executor,Driver...

最新推荐文章于 2022-05-05 12:41:03 发布

Hoult-吴邪

最新推荐文章于 2022-05-05 12:41:03 发布

阅读量719

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hu_lichao/article/details/111829136

版权

本文从Spark的运行机制出发，通过WordCount案例深入解析Spark中的Stage、Executor、Driver等核心概念。了解Spark应用程序如何在分布式集群上执行，以及Job、Stage、Task的划分和Executor的工作原理。

摘要由CSDN通过智能技术生成

1.引言吧

阿西吧，对于Spark新手来说，首先对于Spark的运行机制不了解，往往跟你交流的时候，互相都不知道在说什么，比如部署模式和运行模式，可能都混为一谈，对于有一定开发经验的老手，即使知道运行机制，可能在表述上，对Spark的各种术语也不是很懂，因此理解Spark术语，是Spark开发者之间沟通的必要之路，本文从Spark的运行机制开始，到WordCount案例来理解Spark中的各种术语。

2.Spark的运行机制

首先拿官网的一张图，来说明，其是分布式集群上spark应用程序的一般执行框架。主要由sparkcontext（spark上下文）、cluster manager(资源管理器)和▪executor（单个节点的执行进程）。其中cluster manager负责整个集群的统一资源管理。executor是应用执行的主要进程，内部含有多个task线程以及内存空间。

file Spark的主要运行流程如下：

应用程序在使用spark-submit提交后，根据提交时的参数设置（deploy mode）在相应位置初始化sparkcontext，即spark的运行环境，并创建DAG Scheduler和Task Scheduer，Driver根据应用程序执行代码，将整个程序根据action算子划分成多个job，每个job内部构建DAG图，DAG Scheduler将DAG图划分为多个st

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hoult-吴邪 CSDN认证博客专家 CSDN认证企业博客

码龄7年

92: 原创

7万+: 周排名

46万+: 总排名

9万+: 访问

: 等级

1495: 积分

38: 粉丝

50: 获赞

37: 评论

238: 收藏

私信

关注

热门文章

分类专栏

最新评论

大数据开发-Docker-使用Docker10分钟快速搭建大数据环境,Hadoop、Hive、Spark、Hue、Kafka、ElasticSearch.....
Hoult-吴邪: 可以试试从github自己打包镜像，里面有dockerfile
大数据开发-Docker-使用Docker10分钟快速搭建大数据环境,Hadoop、Hive、Spark、Hue、Kafka、ElasticSearch.....
SmartManWind: 下载速度好慢，可以搞个阿里云的镜像
大数据开发-Nginx&Kafka-Nginx做页面采集, Kafka收集到对应Topic
阿木木_: 怎么将不同模块的请求分发到不同的topic呢？？？根据请求参数？？？
大数据开发-Flink-1.13新特性
微毂: 为啥使用1.13的水印报错了 [code=plain] val loginEventStream: DataStream[LoginEvent] = inputStream .map(data => { val arr = data.split(",") LoginEvent(arr(0).toLong, arr(1), arr(2), arr(3).toLong) }) .assignTimestampsAndWatermarks( WatermarkStrategy .forBoundedOutOfOrderness[LoginEvent](Duration.ofMillis(20)) .withTimestampAssigner(new SerializableTimestampAssigner[LoginEvent] { override def extractTimestamp(element:LoginEvent, recordTimestamp: Long): Long = element.timestamp*1000L }) ) [/code] Error:(23, 48) Static methods in interface require -target:jvm-1.8 .forBoundedOutOfOrderness[LoginEvent](Duration.ofMillis(20))
大数据开发-Spark-闭包的理解
、静寒°: 说得不清不楚，spark闭包与scala闭包本质有什么区别呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。