spark运行模式

local                单机,所有jobs都在这台机器上运行。
standalone    就是说多台机器组成一个集群,然后jobs可以分在多台机器上运行
yarn                就是说spark程序运行在yarn上
client              就是Jobs在不同机器运行,然后结果返回到这台机器上。
cluster           就是说jobs在不同机器上运行,结果返回到集群中的某一台机器上。

 

单机:
local[n] 单机伪分布式模式,n个线程分别充当driver和Executors。由于driver和Executors处于同一个jvm,算子可以访问外部的变量。很多新手的坏习惯就是从这里养成的

集群:
standalone spark worker组成集群,Spark内置的集群搭建模式。适合于不太依赖Hadoop的运算环境,或者存储集群和计算集群分离的场景。
yarn 运行与Hadoop Yarn集群之上。作业调度、资源调度由Yarn分配。Yarn在这方面做得比Spark standalone集群好。适用于存储计算合一,或者需要依赖MR、Hive等作业的场景

部署模式:
client driver运行于执行spark-submit脚本的机器上。这机器不一定是集群的节点,你可以在Windows上运行driver,Linux集群运行Executors。
cluster 作业提交后,driver运行于集群上的某一个节点上,集群视其为一个Executor。相当于后台程序。

standalone 和 yarn(还有mesos,这个不了解)都支持client/cluster两种模式。前者由--master参数控制,后者由deploy-mode参数控制

 

https://blog.51cto.com/xpleaf/2294303

https://www.jianshu.com/p/6b796a5c3e80

https://www.jianshu.com/p/6b796a5c3e80

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值