Pyspark学习笔记(二)--- spark部署及spark-submit命令简介

本文档介绍了Spark的四种部署模式:本地模式、独立集群、YARN和Kubernetes,并详细解析了spark-submit命令及其常用参数,旨在帮助理解如何根据实际需求调整资源以优化Spark应用执行效率。
摘要由CSDN通过智能技术生成

Pyspark学习笔记(二)--- spark部署及spark-submit命令简介

目录

Pyspark学习笔记(二)--- spark部署及spark-submit命令简介

1.Spark的部署模式

1.1 本地模式

1.2  Spark独立集群(Standalone Deploy Mode)

1.3 基于Hadoop YARN 部署

 1.4 基于Kubernetes(即k8s)部署

2. spark-submit 命令


1.Spark的部署模式

官方文档参考资料:https://spark.apache.org/docs/latest/cluster-overview.html#cluster-mode-overview

常见的部署模式有:

● 本地模式
● Spark独立集群(Standalone Deploy Mode)
● 基于Hadoop YARN 部署
● 基于Apache Mesos部署(最新版本的spark已经启用)
● 基于Kubernetes(即k8s)部署

各个部署模式之间的主要区别在于计算集群中一个或者多个节点之间的资源管理方式。每种Spark部署模式都可以用于交互式(shell)应用和非交互式(批处理)应用。
下面简述一下在不同部署模式下,提交任务的命令;参考资料:Submitting Applications - Spark 3.3.0 Documentation

1.1 本地模式

        该模式 运行Spark进程运行在本地机器上,受限于本地机器的资源,一般都是用来进行测试的。

 可以看到,master填的local即选择本地模式,且可以写为 local[n] 来选择使用 n个CPU内核;

1.2  Spark独立集群(Standalone Deploy Mode)

Spark独立集群指Spark内建的(“独立的”)调度器,无需任何外部调度器。

在master处填写主进程运行的地址和端口

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值