集群管理器,cluster manager:Master 进程
工作节点:Worker进程
spark,Master+Worker集群架构就足够了,然后可以编写spark作业,提交到Master+Worker集群架构中运行
一般大公司,Hadoop、spark、storm、Hive、MapReduce都用到了,统一就不搭建spark集群了,(Master+Worker压根就没有)
YARN集群
直接部署一个spark客户端,部署一个spark安装包(解压缩+配置(hadoop的配置文件的目录 spark-env))
就可以提交spark作业给Yarn集群来运行作业
Master进程(cluster manager)
Worker进程(多个工作节点)
俩种deploy mode:
1. client:在哪台机器上,用spark submit提交spark作业,就会在哪台机器上启动driver进程
2. cluster模式:作业是提交给master,master找一台worker进程,启动driver