Spark -- 优化配置

Unable to load native-hadoop library问题

  提交任务时,提示 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable.

  Spark出现这个问题,修改spark-env.sh,增加如下:

export HADOOP_HOME=/opt/module/hadoop-2.7.2
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

  Hadoop启动出现这个问题,修改hadoop-env.sh,增加如下:

export JAVA_HOME=/opt/module/jdk1.8.0_181
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

重复上传Jar包问题

  提交任务时,提示 WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.
在这里插入图片描述
  解决:

  1. 上传spark环境的jar包到hdfs
 hdfs dfs -mkdir /spark/jars
 hdfs dfs -put /opt/module/spark-2.4.5-bin-hadoop2.7/jars/* /spark/jars/
  1. 修改spark-defaults.conf
vi spark-defaults.conf

spark.yarn.jars=hdfs://hadoop102:9000/spark/jars/*
  1. 分发配置到各个节点,再次提交,不用再重复上传jar包了
    在这里插入图片描述

开启推测执行

  在spark作业运行中,一个spark作业会构成一个DAG调度图,一个DAG又切分成多个stage,一个stage由多个Tesk组成,一个stage里面的不同task的执行时间可能不一样,有的task很快就执行完成了,而有的可能执行很长一段时间也没有完成。造成这种情况的原因可能是集群内机器的配置性能不同、网络波动、或者是由于数据倾斜引起的。
  而推测执行(speculative)就是当出现同一个stage里面有task长时间完成不了任务,spark就会在不同的executor上再启动一个task来跑这个任务,然后看哪个task先完成,就取该task的结果,并kill掉另一个task。其实对于集群内有不同性能的机器开启这个功能是比较有用的。
  开启:

  1. 修改spark-defaults.conf
# 预测执行
spark.speculation true
# 检查是否需要预测执行的间隔时间
spark.speculation.interval 5000ms
# 触发预测执行条件:成功task占比
spark.speculation.quantile 0.8
  1. 分发配置到各个节点
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值