解决spark on yarn每次都上传$SPARK_HOME/jars的问题

最新推荐文章于 2023-01-27 19:40:14 发布

SUDDEV

最新推荐文章于 2023-01-27 19:40:14 发布

阅读量1.1k

点赞数

分类专栏： yarn Spark 文章标签： Spark on Yarn

本文链接：https://blog.csdn.net/suddev/article/details/102723443

版权

yarn 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

Spark

4 篇文章 1 订阅

订阅专栏

1.前言

每次提交Spark on Yarn作业时， Spark都会把$SPARK_HOME/jars下的jar打包成zip上传到hdfs分布式缓存中
spark
这样在生产上是不合适的，会浪费不必要的网络资源

2.官方说明

http://spark.apache.org/docs/latest/running-on-yarn.html
spark
如果我们在使用Spark on Yarn时如果为设置spark.yarn.jars或spark.yarn.archive就会发生jars上传的操作。解决办法也很简单

将$spark/jars/*上传hdfs，然后配置spark-defaults.conf就行

 hdfs dfs -mkdir  /lib/spark-jars
 hdfs dfs -put ${SPARK_HOME}/jars/*.jar /lib/spark-jars
 vim ${SPARK_HOME}/conf/spark-defaults.conf
 # 添加以下内容
 spark.yarn.jars    hdfs://hadoop001:9000/lib/spark-jars/*

再次提交spark作业到yarn发现不会再上传Jars了
spark