Spark基于standalone和YARN的两种提交模式
回顾hadoop的yarn组件:
- ResourceManager: 全局资源管理和任务调度
- NodeManager: 单个节点的资源管理和监控
- ApplicationMaster: 单个作业的资源管理和任务监控
- Container: 资源申请的单位和任务运行的容器
Spark基于Yarn的两种提交模式(yarn-cluster、yarn-client)
Yarn-cluster模式下作业执行流程:
1. 客户端(spark-submit)生成作业信息请求提交到yarn集群(master节点)的ResourceManager(RM)
2. RM在某一个NodeManager(由Yarn决定)分配启动container并将Application Master(AM)分配给该NodeManager(NM)
3. NM接收到RM的分配