Pyspark学习笔记(二)--- spark部署及spark-submit命令简介
目录
Pyspark学习笔记(二)--- spark部署及spark-submit命令简介
1.2 Spark独立集群(Standalone Deploy Mode)
1.Spark的部署模式
官方文档参考资料:https://spark.apache.org/docs/latest/cluster-overview.html#cluster-mode-overview
常见的部署模式有:
● 本地模式
● Spark独立集群(Standalone Deploy Mode)
● 基于Hadoop YARN 部署
● 基于Apache Mesos部署(最新版本的spark已经启用)
● 基于Kubernetes(即k8s)部署
各个部署模式之间的主要区别在于计算集群中一个或者多个节点之间的资源管理方式。每种Spark部署模式都可以用于交互式(shell)应用和非交互式(批处理)应用。
下面简述一下在不同部署模式下,提交任务的命令;参考资料:Submitting Applications - Spark 3.3.0 Documentation
1.1 本地模式
该模式 运行Spark进程运行在本地机器上,受限于本地机器的资源,一般都是用来进行测试的。
可以看到,master填的local即选择本地模式,且可以写为 local[n] 来选择使用 n个CPU内核;
1.2 Spark独立集群(Standalone Deploy Mode)
Spark独立集群指Spark内建的(“独立的”)调度器,无需任何外部调度器。
在master处填写主进程运行的地址和端口