Spark——spark-submit提交应用程序的注意事项

最新推荐文章于 2021-04-02 16:14:05 发布

Southwest-

最新推荐文章于 2021-04-02 16:14:05 发布

阅读量189

点赞数

分类专栏： Spark 文章标签： Spark

本文链接：https://blog.csdn.net/lovetechlovelife/article/details/111078193

版权

Spark 专栏收录该内容

31 篇文章 3 订阅

订阅专栏

文章目录

配置加载优先级
指定多个依赖jar包

配置加载优先级

我们知道Spark应用程序在提交的时候会加载多个地方的配置信息：

通过配置文件conf/spark-defaults.conf

...
# Default system properties included when running spark-submit.
# This is useful for setting default environmental settings.

# Example:
# spark.master                     spark://master:7077
# spark.eventLog.enabled           true
# spark.eventLog.dir               hdfs://namenode:8021/directory
# spark.serializer                 org.apache.spark.serializer.KryoSerializer
# spark.driver.memory              5g
# spark.executor.extraJavaOptions  -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

通过spark-submit命令行参数–conf

bin/spark-submit \
--class com.my.spark.App \
--master yarn \
--deploy-mode cluster \
--driver-memory 2g \
--num-executors 60 \
--executor-cores 2 \
--executor-memory 4g \
--conf "spark.sql.shuffle.partitions=20" \ //指定配置
--conf "spark.dynamicAllocation.enabled=false" \
--conf "spark.sql.autoBroadcastJoinThreshold=20" \
/opt/bigdata.jar

通过Spark应用程序代码中的SparkConf/SparkSession类

//通过SparkConf
val conf = new SparkConf()
            .set("hive.metastore.uris", "thrift://master-1:9083") //指定配置
val spark = new SparkContext(conf)

//通过SparkSession
val spark = SparkSession
	.builder()
	.appName("name")
	.config("hive.metastore.uris", "thrift://master-1:9083") //指定配置
	.enableHiveSupport()
	.getOrCreate()

那么以上3中配置加载方式的优先级是怎么样的呢？3种配置优先级从高到底依次为：

通过Spark应用程序代码中的SparkConf/SparkSession类
通过spark-submit命令行参数–conf
通过配置文件conf/spark-defaults.conf

指定多个依赖jar包

我们在提交Spark应用程序的时候，要通过–jars来指定多个依赖包，那么依赖包之间要以逗号","分隔，且逗号前后不能有空格：

./bin/spark-submit \
--class com.my.spark.App \
--master yarn \
--deploy-mode cluster \
--driver-memory 2g \
--num-executors 60 \
--executor-cores 2 \
--executor-memory 4g \
--jars /opt/dependencies/fastjson-1.2.62.jar,/opt/dependencies/hbase-spark-1.2.0-cdh5.16.2.jar,/opt/dependencies/elasticsearch-spark-20_2.11-7.1.0.jar \
--conf "spark.sql.shuffle.partitions=20" \
/opt/jar/bigdata.jar

Southwest-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark——spark-submit提交应用程序的注意事项

文章目录配置加载优先级指定多个依赖jar包配置加载优先级我们知道Spark应用程序在提交的时候会加载多个地方的配置信息：通过配置文件conf/spark-defaults.conf...# Default system properties included when running spark-submit.# This is useful for setting default environmental settings.# Example:# spark.master
复制链接

扫一扫