Spark的Cluster模式架构图
摘自Apache官网:
其中
- DriverProgram为设计的Spark程序,在Spark程序中必须定义SparkContext(开发Spark应用程序的入口)。
- SparkContext通过Cluster Manager管理整个集群,集群中包含多个Worker Node,在每个Worker Node中都有Executor负责执行任务
SparkContext通过Cluster Manager 管理整个集群Cluster,使得Spark程序可以在不同的Cluster模式下运行:
- 本地模式:只需在程序中import Spark的链接库就可以实现。
- Spark Standalone Cluster:由Spark提供的Cluster管理模式,若没有架设hadoop multi Node Cluster,可单独架设Spark Standalone Cluster,实现多台计算机并行计算。该模式下,仍然可以直接存取Local Disk 或HDFS
- Hadoop YARN:Spark可以在YARN上运行,让YARN帮助它进行多台机器的资源管理。
- 在云端运行
安装Scala
Spark基于Scala开发&