Spark On YARN

最新推荐文章于 2024-08-14 16:26:58 发布

JeeThink

最新推荐文章于 2024-08-14 16:26:58 发布

阅读量222

点赞数

本文链接：https://blog.csdn.net/luckGeek/article/details/89975094

版权

本文详细介绍了如何将本地Spark工程打包并在YARN上运行，包括设置HADOOP_CONF_DIR，启动YARN，执行自带实例，以及工程打包、上传、配置并行度和查看输出结果的步骤。

摘要由CSDN通过智能技术生成

概述：本文主要讲述如何将本地Spark工程打包放到YARN中运行。

1、基本案例

（1）spark-shell位置

cd /root/app/spark-2.4.2-bin-hadoop2.6/bin

（2）设置HADOOP_CONF_DIR位置

export HADOOP_CONF_DIR=/root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
#或写入spark-env.sh
vi /root/app/spark-2.4.2-bin-hadoop2.6/conf/spark-env.sh
#内容为
HADOOP_CONF_DIR=/root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

（3）启动yarn

./app/hadoop-2.6.0-cdh5.7.0/sbin/start-all.sh

（4）执行spark自带实例

#命令参考http://spark.apache.org/docs/latest/submitting-applications.html

./app/spark-2.4.2-bin-hadoop2.6/bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn \
  --executor-memory 1G \
  --total-executor-cores 1 \
  /root/app/spark-2