spark-submit的基础语法

spark-submit

spark-submit是用于提交并运行【已开发完成的Spark程序】
本文默认以Yarn模式演示和讲解


基础语法

语法:spark-submit [可选选项] <Jar包 | Python文件 | R文件> 参数

# 举例说明,需要运行的文件名是pyspark_core_wordcount_args.py
# 输出的参数是argv1和argv2

spark-submit \
--master yarn \
……
hdfs://node1:8020/spark/app/pyspark_core_wordcount_args.py \
argv1 \
argv2

可选选项


基础选项

参数作用默认值
–master用于指定当前程序运行的模式(local、Standalone、yarn、Mesos、K8s)local[*]
–deploy-mode用于指定Driver进程运行的位置(client和cluster)client
–name用于指定当前程序的名称运行的文件名
–jars用于指定当前程序额外使用的一些jar包。例如MySQL驱动包、JSON解析包
–conf用于临时修改Spark程序中其他的配置

Driver资源选项

参数作用默认值
–driver-cores指定Driver进程运行时,能够使用多少核CPU1
—driver-memory指定Driver进程运行时,能够使用多少内存1024M
–supervise当Driver进程故障,强制自动重启

Executor资源选项

参数作用默认值
–num-executorsYARN模式下指定Executor进程的个数1
–executor-cores指定每个Executor运行时,能够使用多少核CPU1
–executor-memory指定每个Executor进程运行时,能够使用多少内存1024M
–queue指定提交到哪个队列中运行


案例脚本

# 假如spark文件路径是/export/server/spark

/export/server/spark/bin/spark-submit \
--master yarn \
--deploy-mode cluster \
--driver-cores 1  \
--driver-memory 512M \
--supervise \
--num-executors 1 \
--executor-cores 1 \
--executor-memory 1G \
hdfs://node1:8020/spark/app/py/pyspark_core_word_args.py \
argv1 \
argv2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值