spark-on-yarn作业提交缓慢优化

该博客针对Spark on YARN作业提交缓慢的问题进行分析,指出上传文件速度慢和环境配置错误是主要原因。解决方案包括:1) 将Spark依赖的JAR包上传到HDFS并设置`spark.yarn.jar`;2) 在`spark-env.sh`中配置`HADOOP_HOME`;3) 解决Spark加载Hadoop库异常问题,确保`java.library.path`正确;4) 调整YARN资源配置以减少ACCEPTED状态的等待时间。
摘要由CSDN通过智能技术生成


spark on yanr方式运行计算作业,发现作业提交缓慢

根据日志,提交缓慢主要在两个过程:
一、uploading file太慢

17/05/09 10:13:28 INFO yarn.Client: Uploading resource file:/opt/cloudera/parcels/spark-1.6.3-bin-hadoop2.6/lib/spark-assembly-1.6.3-hadoop2.6.0.jar -> hdfs://nameservice1/user/root/.sparkStaging/application_1493349445616_12544/spark-assembly-1.6.3-hadoop2.6.0.jar
17/05/09 10:13:36 INFO yarn.Client: Uploading resource file:/home/wis2_work/wis-spark-stream-1.0.0-all.jar -> hdfs://nameservice1/user/root/.sparkStaging/application_1493349445616_12544/wis-spark-stream-1.0.0-all.jar

这个日志输出后再上传程序依赖的jar包,大约耗时30s左右,造成提交缓慢,官网解决办法:如果想要在yarn端(yarn的节点)访问spark的runtime jars,需要指定spark.yarn.archive 或者 spark.yarn.jars。如果都这两个参数都没有指定,spark就会把$SPARK_HOME/jars/所有的jar上传到分布式缓存中。这也是之前任务提交特别慢的原因。

下面是解决办法
1、将$SPARK_HOME/相关依赖jar包上传到hdfs上
hadoop fs -mkdir /wi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值