Spark -- 优化配置

最新推荐文章于 2023-09-18 17:09:19 发布

TheBiiigBlue

最新推荐文章于 2023-09-18 17:09:19 发布

阅读量250

点赞数

分类专栏： Spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/Aeve_imp/article/details/107401167

版权

Spark 专栏收录该内容

21 篇文章 2 订阅

订阅专栏

向导

Unable to load native-hadoop library问题
重复上传Jar包问题
开启推测执行

Unable to load native-hadoop library问题

提交任务时，提示 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable.

Spark出现这个问题，修改spark-env.sh，增加如下：

export HADOOP_HOME=/opt/module/hadoop-2.7.2
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

Hadoop启动出现这个问题，修改hadoop-env.sh，增加如下：

export JAVA_HOME=/opt/module/jdk1.8.0_181
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

重复上传Jar包问题

提交任务时，提示 WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.
在这里插入图片描述
解决：

上传spark环境的jar包到hdfs

 hdfs dfs -mkdir /spark/jars
 hdfs dfs -put /opt/module/spark-2.4.5-bin-hadoop2.7/jars/* /spark/jars/

修改spark-defaults.conf

vi spark-defaults.conf

spark.yarn.jars=hdfs://hadoop102:9000/spark/jars/*

分发配置到各个节点，再次提交，不用再重复上传jar包了

开启推测执行

在spark作业运行中，一个spark作业会构成一个DAG调度图，一个DAG又切分成多个stage，一个stage由多个Tesk组成，一个stage里面的不同task的执行时间可能不一样，有的task很快就执行完成了，而有的可能执行很长一段时间也没有完成。造成这种情况的原因可能是集群内机器的配置性能不同、网络波动、或者是由于数据倾斜引起的。
而推测执行(speculative)就是当出现同一个stage里面有task长时间完成不了任务，spark就会在不同的executor上再启动一个task来跑这个任务，然后看哪个task先完成，就取该task的结果，并kill掉另一个task。其实对于集群内有不同性能的机器开启这个功能是比较有用的。
开启：

修改spark-defaults.conf

# 预测执行
spark.speculation true
# 检查是否需要预测执行的间隔时间
spark.speculation.interval 5000ms
# 触发预测执行条件：成功task占比
spark.speculation.quantile 0.8

分发配置到各个节点

TheBiiigBlue

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark -- 优化配置

向导重复上传Jar包问题开启推测执行重复上传Jar包问题提交任务时，提示 WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME. 解决：上传spark环境的jar包到hdfs hdfs dfs -mkdir /spark/jars hdfs dfs -put /opt/module/spark-2.
复制链接

扫一扫

专栏目录