Unable to load native-hadoop library问题
提交任务时,提示 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable.
Spark出现这个问题,修改spark-env.sh,增加如下:
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
Hadoop启动出现这个问题,修改hadoop-env.sh,增加如下:
export JAVA_HOME=/opt/module/jdk1.8.0_181
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
重复上传Jar包问题
提交任务时,提示 WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.
解决:
- 上传spark环境的jar包到hdfs
hdfs dfs -mkdir /spark/jars
hdfs dfs -put /opt/module/spark-2.4.5-bin-hadoop2.7/jars/* /spark/jars/
- 修改spark-defaults.conf
vi spark-defaults.conf
spark.yarn.jars=hdfs://hadoop102:9000/spark/jars/*
- 分发配置到各个节点,再次提交,不用再重复上传jar包了
开启推测执行
在spark作业运行中,一个spark作业会构成一个DAG调度图,一个DAG又切分成多个stage,一个stage由多个Tesk组成,一个stage里面的不同task的执行时间可能不一样,有的task很快就执行完成了,而有的可能执行很长一段时间也没有完成。造成这种情况的原因可能是集群内机器的配置性能不同、网络波动、或者是由于数据倾斜引起的。
而推测执行(speculative)就是当出现同一个stage里面有task长时间完成不了任务,spark就会在不同的executor上再启动一个task来跑这个任务,然后看哪个task先完成,就取该task的结果,并kill掉另一个task。其实对于集群内有不同性能的机器开启这个功能是比较有用的。
开启:
- 修改spark-defaults.conf
# 预测执行
spark.speculation true
# 检查是否需要预测执行的间隔时间
spark.speculation.interval 5000ms
# 触发预测执行条件:成功task占比
spark.speculation.quantile 0.8
- 分发配置到各个节点