Spark on yarn

yarn 的执行流程


Spark Application


Spark与MapReduce的区别


MapReduce是基于进程的, mapTask、reducerTask 都是进程。当task完成了, 这个进程就结束了。
Spark是基于线程的, 多个task并行在一个进程里, 即使没有job运行, 这个进程也会在整个Spark Application生命周期内持续运行。

好处:

  • 速度快
  • task可以直接启动, 不必创建进程
  • 基于内存的处理

Spark on yarn 的两种方式


worker均运行在Container中。 每一个YarnApplication都有一个ApplicationMaster, 运行在第一个Container中。
Spark on yarn 分为cluster和client两种模式:

  • Client模式下, Driver运行在Client进程中; ApplicationMaster负责资源申请。
  • Cluster模式下, Driver运行在第一个Container中, 提交任务后Client就没有用了; ApplicationMaster负责申请资源和task调度。

转载于:https://my.oschina.net/dreamness/blog/3093940

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值