问题描述
场景:
在小海豚里面调度Spark任务是出现这个问题。
spark 3.0.1
yarn:3.1.1
日志:
Container exited with a non-zero exit code 1. Error file: prelaunch.err.
Last 4096 bytes of prelaunch.err :
Last 4096 bytes of stderr :
Error: Could not find or load main class org.apache.spark.deploy.yarn.ApplicationMaster
解决方案:
1.配置 spark.yarn.jars
- 1 上传jars到Hdfs
hadoop fs -mkdir -p /spark-yarn/jars
hadoop fs -put $SPARK_HOME/jars/* /spark-yarn/jars/
- 2 修改spark-defaults.conf
spark.yarn.jars hdfs://hadoop218:8020/spark-yarn/jars/*.jar
这个是网上的大多数的解决方案,但是我配置了,还是出现上述的错误。于是我找到了下面的解决方式
2.配置 spark.yarn.archive
针对1不起作用的情况
- 1打包jar
cd $SPARK_HOME/jars/
zip -q -r spark_jars_.zip *
hadoop fs -mkdir /spark-yarn/zip
hadoop fs -put spark_jars.zip /spark-yarn/zip/
- 2修改修改spark-defaults.conf
spark.yarn.archive hdfs://hadoop218:8020/spark-yarn/zip/spark_jars.zip
参数分析:
Spark官网介绍:
使用yarn的方式提交spark应用时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 看到输出的日志在输出
Neither spark.yarn.jars nor spark.yarn.archive is set;
一段指令后,会看到不停地上传本地jar到HDFS上,内容如下,这个过程会非常耗时。可以通过在spark-defaults.conf配置里添加spark.yarn.archive或spark.yarn.jars来缩小spark应用的启动时间
spark.yarn.archive有个说明是,说如果两个参数都配置,应用程序会优先使用 spark.yarn.archive
会代替 spark.yarn.jars 在所有容器中使用打包文件。
同样这是一项优化手段,配置spark.yarn.archive
并且上传了程序所有的依赖jar的方式能减少资源的上传。