Spark on YARN 模式启动后去HDFS上加载依赖包

在Spark on YARN模式下,作业提交缓慢,原因是Spark默认会上传所有$SPARK_HOME/jars的依赖。为解决此问题,可以设置`spark.yarn.archive`或`spark.yarn.jars`,指向HDFS上的jar包,避免大量jar上传导致的延迟。按照官方建议操作后,日志中不再显示上传库的提示,从而提升任务提交速度。
摘要由CSDN通过智能技术生成

1.在使用Spark on YARN模式时,发现作业提交缓慢
通过官网描述:

也就是说,:如果想要在yarn端(yarn的节点)访问spark的runtime jars,需要指定spark.yarn.archive 或者 spark.yarn.jars。如果都这两个参数都没有指定,spark就会把$SPARK_HOME/jars/所有的jar上传到分布式缓存中。这也是之前任务提交特别慢的原因。

./spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
 /home/hadoop/app/spark-2.4.4-bin-2.6.0-cdh5.15.1/examples/jars/spark-examples_2.11-2.3.1.jar \
3

查看日志发现:

[hadoop@hadoop002 bin]$ hdfs dfs -ls hdfs://hadoop002:8020/user/hadoop/.sparkStaging/application_1571310619518_0005
Found 3 items
-rw-r--r--   1 hadoop supergroup     223291 2019-10-18 18:15 hdfs://hadoop002:8020/user/hadoop/.sparkStagi
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值