Spark08: Spark Job的三种提交模式

文章介绍了Spark任务的三种提交方式:standalone模式,YARNclient模式和YARNcluster模式。standalone模式中driver运行在客户端;client模式适用于测试,但可能因通信效率和内存问题而不推荐;而cluster模式更优化,driver运行在集群内,避免了client模式的问题,但查看日志需在集群上进行。
摘要由CSDN通过智能技术生成

一、三种任务提交方式

1. 第一种,standalone模式

基于Spark自己的standalone集群。指定–master spark://bigdata01:7077


2. 第二种,是基于YARN的client模式。

指定–master yarn --deploy-mode client

使用场景:这种方式主要用于测试,查看日志方便一些,部分日志会直接打印到控制台上面,因为driver进程运行在本地客户端,就是提交Spark任务的那个客户端机器,driver负责调度job,会与yarn集群产生大量的通信,一般情况下Spark客户端机器和Hadoop集群的机器是无法内网通信,只能通过外网,这样在大量通信的情况下会影响通信效率,并且当我们执行一些action操作的时候数据也会返回给driver端,driver端机器的配置一般都不高,可能会导致内存溢出等问题。

3. 第三种,是基于YARN的cluster模式。【推荐】

指定–master yarn --deploy-mode cluster
使用场景:这种方式driver进程运行在集群中的某一台机器上,这样集群内部节点之间通信是可以通过内网通信的,并且集群内的机器的配置也会比普通的客户端机器配置高,所以就不存在yarn-client模式的一些问题了,只不过这个时候查看日志只能到集群上面看了,这倒没什么影响。

二、三种提交方式的区别

 (1)左边是standalone模式,现在我们使用的提交方式,driver进程是在客户端机器中的,其实针对standalone模式而言,这个Driver进程也是可以运行在集群中的

(2) 中间的值yarn client模式,由于是on yarn模式,所以里面是yarn集群的进程,此时driver进程就在提交spark任务的客户端机器上了

(3)最右边这个是yarn cluster模式,driver进程就会在集群中的某一个节点上面。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值