spark的架构

最新推荐文章于 2024-04-13 18:49:38 发布

冥想者-定

最新推荐文章于 2024-04-13 18:49:38 发布

阅读量942

点赞数

分类专栏： ********Spark

********Spark 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

spark架构采用了分布式计算中的master-slave模型，master是对应集群中含有master进程的节点，slave是集群中含有worker进程的节点，master作为整个集群的控制器，负责整个集群的正常运行，worker相当于是计算节点，接受主节点命令与进行状态汇报。

Executor负责任务的执行，client作为用户的客户端负责提交应用，driver负责控制一个应用的执行

spark集群部署后，需要在主节点和从节点分别启动master进程和worker进程，对真个集群进行控制，在一个spark应用的执行过程中。driver和worker是两个重要角色

driver程序是应用逻辑执行的起点，负责作业的调度，即task任务的分发，而多个worker用来管理计算节点和创建executor并行处理任务，在执行阶段，driver会将task和task所依赖的file和jar序列化后传递给对于的worker机器，同时executor对相应的数据分区的任务进行处理。

下面详细介绍spakr中的架构基本组件

clustermanager 在standalone模式中即为master主节点，控制整个集群，监控worker，在yarn中为资源管理器

worker 从节点，负责控制计算节点，启动executor 或者 driver 在yarn模式中为nodemanage 负责计算节点的控制

driver 运行 application的main函数并创建sparkcontxt

executor执行器，在woker node上执行任务的组件，用于启动线程池运行任务，每个application拥有独立的一组executors

sparkcontext 整个应用的上下文，控制应用的生命周期

rdd spark 的基本计算单元，一组rdd可形成执行的有向五环图rdd graph

dag scheduler 根据作业构建基于stage额 dag ，听提交stage给task scheduler

taskscheduler 将任务分发给executor执行

spark env 县城级别的上下文，存储运行时的重要组件的引用。

mapoutput tracker 负责shuffle元信息的存储。

broadcastmanager 负责广播变量的控制与元信息的存储

spark的整体流程为： client提交应用，master找到一个worker启动driver，driver向master或者资源管理器申请资源，之后将应用转化为rdd graphh 再有dagscheduler将rdd graph转化为stage的有向无环图提交给taskscheduler，由taskscheduler提价任务给executor执行，在任务执行的过程中。其他组件协同工作，确保整个应用顺利执行。

spark运行逻辑

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。