解决spark on yarn每次都上传$SPARK_HOME/jars的问题

1.前言

每次提交Spark on Yarn作业时, Spark都会把$SPARK_HOME/jars下的jar打包成zip上传到hdfs分布式缓存中
spark
这样在生产上是不合适的,会浪费不必要的网络资源

2.官方说明

http://spark.apache.org/docs/latest/running-on-yarn.html
spark
如果我们在使用Spark on Yarn时如果为设置spark.yarn.jarsspark.yarn.archive就会发生jars上传的操作。解决办法也很简单
spark.yarn.jars
$spark/jars/*上传hdfs,然后配置spark-defaults.conf就行

 hdfs dfs -mkdir  /lib/spark-jars
 hdfs dfs -put ${SPARK_HOME}/jars/*.jar /lib/spark-jars
 vim ${SPARK_HOME}/conf/spark-defaults.conf
 # 添加以下内容
 spark.yarn.jars    hdfs://hadoop001:9000/lib/spark-jars/*

再次提交spark作业到yarn发现不会再上传Jars了
spark

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值