spark submit提交方式

local模式

代码:

package top.lbing.hello;

public class Hello {
    
    public String sayHello() {
        return "Hello Maven";
    }
    
    public static void main(String[] args) {
        System.out.println(new Hello().sayHello());
    }
}

提交:

# $SPARK_HOME 下
./bin/spark-submit \
--class top.lbing.hello.Hello \
--master local \
libs/hello-1.0-SNAPSHOT.jar

yarn client

代码:

# 同上

提交:

./bin/spark-submit \
--class top.lbing.hello.Hello \
--master yarn \
libs/hello-1.0-SNAPSHOT.jar

spark-submit 提交jar包到yarn上的时候,数据输入路径,数据输出路径都必须是HDFS的路径

yarn cluster

代码:


提交:

./bin/spark-submit \
--class top.lbing.hello.Hello \
--master yarn \
--deploy-mode cluster \
libs/hello-1.0-SNAPSHOT.jar

查看:
http://ip:8088/

spark on yarn和cluster区别:

spark client:driver运行在client端,client请求container完成作业调度执行,client不能退出,日志在控制台输出方便查看。
spark cluster:driver运行在applicationMaster,client一旦提交作业就可以关掉,作业已经运行在yarn上,日志在客户端看不到,因为作业运行在yarn上,使用yarn logs -applicationId application_id查看。 

standalone

提交:

./bin/spark-submit \
–class com.demo.spark.Test \
–master spark://ip:7077 \
–executor-memory 1g \
–total-executor-cores 6 \
libs/test.jar

比较

模式用途
local开发使用
standalonespark自带
yarn生产环境使用,统一使用yarn对整个集群作业(MR/Spark)的资源调度

参数

spark submit脚本可选参数:

可选参数含义
–master连接的集群URL,详见下表
–class运行Java程序的应用主类,scala也是如此
–name应用的名称,会显示在spark可视化网页中
–jars如果你需要依赖少量的外部jar,就写到这里
–files需要放到应用工作目录中的文件列表
–executor-memory执行器进程使用的内存量,字节单位 比如 512m或者 50g
–driver-memory驱动器程序使用的内存量,单位大小同上
–mater连接的值含义
local运行本地模式,单核模式
local[N]运行本地模式,N核模式
local[*]运行本地模式,使用尽可能多的核心
yarn连接到一个yarn集群
mesos://host:port连接到mesos集群,主节点默认监听5050端口
spark://host:port连接到spark集群,主节点默认监听7070端口

参考:
https://blog.csdn.net/huonan_123/article/details/84282843.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值