Spark on Yarn提交作业优化

问题复现

我们这里直接用spark-shell测试,spark-submit底层也是调用的spark-shell

[hadoop@hadoop001 bin]$ ./spark-shell  --master yarn --name wuzhou --deploy-mode client

在这里插入图片描述
我们每次在执行提交作业的脚本时,都会出现上图所示的场景;可以看出spark.yarn.jars、sparl.yarn.archive都没有配置,我们看下官网的说明

http://spark.apache.org/docs/latest/running-on-yarn.html

在这里插入图片描述

官网的意思:如果spark.yarn.jars或者sparl.yarn.archive这2个属性没有设置的话,spark会把$SPARK_HOME/jars下的jar包打包,然后上传到分布式缓存,也就是hdfs

解决方法

下面是官网的说明

http://spark.apache.org/docs/latest/running-on-yarn.html

在这里插入图片描述

先创建hdfs目录

[hadoop@hadoop001 bin]$ hdfs dfs -mkdir /spark-yarn-jars

然后把$SPARK_HOME/jars上传到此目录

[hadoop@hadoop001 bin]$ hdfs dfs -put ${SPARK_HOME}/jars/*.jar /spark-yarn-jars

配置spark-defaults.conf文件

[hadoop@hadoop001 bin]$ vi ${SPARK_HOME}/conf/spark-defaults.conf

//添加如下的配置
spark.yarn.jars    hdfs://hadoop001:9000/spark-yarn-jars/*.jar

重新执行spark on yarn,会发现不会再上传jars,这样执行效率会高点

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值