Spark内核剖析2---Spark yarn client/cluster模式提交任务流程

本文深入探讨了Spark在YARN上的两种提交模式:client和cluster。Yarn-cluster模式中,ResourceManager、NodeManager和ApplicationMaster分别对应standalone模式的master、worker和driver。而在Yarn-client模式下,driver运行在本地,仅AM负责executor唤醒。Yarn-cluster模式适用于生产环境,而client模式适合测试,因其可能导致网络流量激增。YARN通过分离资源管理和作业调度,降低了JobTracker的压力,并引入Container实现资源隔离,提高了集群利用率。
摘要由CSDN通过智能技术生成

Spark内核剖析1—Spark standalone模式提交任务过程中描述了spark的standalone提交模式的主要细节,这是spark最经典的模式。但一般在生产中,使用的都是yarn-client或yarn-cluster模式,下文主要描述其原理。

Yarn-cluster模式

在这里插入图片描述
这里的ResourceManager相当于standalone的master,NodeManager相当于Worker,ApplicationMaster相当于Driver。之后会在AM中启动SparkContext,完成对stage的划分和task的分发。

Yarn-client模式

在这里插入图片描述
client模式的AM的功能很有限,只负责executor唤醒,任务调度和监控依旧在本地。

yarn-client与yarn-cluster对比
  1. yarn-client一般用于测试,由于driver端在本地,负责调度application,因而会导致网卡流量激增,在公司中可能会被运维警告
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值