local模式
代码:
package top.lbing.hello;
public class Hello {
public String sayHello() {
return "Hello Maven";
}
public static void main(String[] args) {
System.out.println(new Hello().sayHello());
}
}
提交:
# $SPARK_HOME 下
./bin/spark-submit \
--class top.lbing.hello.Hello \
--master local \
libs/hello-1.0-SNAPSHOT.jar
yarn client
代码:
# 同上
提交:
./bin/spark-submit \
--class top.lbing.hello.Hello \
--master yarn \
libs/hello-1.0-SNAPSHOT.jar
spark-submit 提交jar包到yarn上的时候,数据输入路径,数据输出路径都必须是HDFS的路径
yarn cluster
代码:
提交:
./bin/spark-submit \
--class top.lbing.hello.Hello \
--master yarn \
--deploy-mode cluster \
libs/hello-1.0-SNAPSHOT.jar
查看:
http://ip:8088/
spark on yarn和cluster区别:
spark client:driver运行在client端,client请求container完成作业调度执行,client不能退出,日志在控制台输出方便查看。
spark cluster:driver运行在applicationMaster,client一旦提交作业就可以关掉,作业已经运行在yarn上,日志在客户端看不到,因为作业运行在yarn上,使用yarn logs -applicationId application_id查看。
standalone
提交:
./bin/spark-submit \
–class com.demo.spark.Test \
–master spark://ip:7077 \
–executor-memory 1g \
–total-executor-cores 6 \
libs/test.jar
比较
模式 | 用途 |
---|---|
local | 开发使用 |
standalone | spark自带 |
yarn | 生产环境使用,统一使用yarn对整个集群作业(MR/Spark)的资源调度 |
参数
spark submit脚本可选参数:
↑
可选参数 | 含义 |
---|---|
–master | 连接的集群URL,详见下表 |
–class | 运行Java程序的应用主类,scala也是如此 |
–name | 应用的名称,会显示在spark可视化网页中 |
–jars | 如果你需要依赖少量的外部jar,就写到这里 |
–files | 需要放到应用工作目录中的文件列表 |
–executor-memory | 执行器进程使用的内存量,字节单位 比如 512m或者 50g |
–driver-memory | 驱动器程序使用的内存量,单位大小同上 |
–mater连接的值 | 含义 |
---|---|
local | 运行本地模式,单核模式 |
local[N] | 运行本地模式,N核模式 |
local[*] | 运行本地模式,使用尽可能多的核心 |
yarn | 连接到一个yarn集群 |
mesos://host:port | 连接到mesos集群,主节点默认监听5050端口 |
spark://host:port | 连接到spark集群,主节点默认监听7070端口 |
参考:
https://blog.csdn.net/huonan_123/article/details/84282843.