搭建Spark On Yarn 集群

qq_57026298

已于 2022-05-17 09:58:15 修改

阅读量680

点赞数

文章标签： hadoop spark hdfs

于 2022-05-16 20:14:23 首次发布

本文链接：https://blog.csdn.net/qq_57026298/article/details/124806442

版权

本文档详细介绍了如何搭建Spark Standalone集群，并演示了如何将Spark应用提交到YARN集群运行。首先，在YARN集群的一个节点上安装Spark并配置spark-env.sh文件，指定Hadoop相关属性。接着，启动HDFS和YARN。最后，提交Spark应用，并通过YARN的webUI查看应用日志以获取运行结果。

摘要由CSDN通过智能技术生成

搭建Spark On Yarn 集群

- 一、搭建Spark Standalone集群
- 二、提交Spark应用到集群运行

一、搭建Spark Standalone集群

参看《搭建SecureDRT》
修改Spark环境配置文件
（1）Spark On YARN模式的搭建比较简单，仅需要在YARN集群的一个节点上安装Spark即可，该节点可作为提交Spark应用程序到YARN集群的客户端。Spark本身的Master节点和Worker节点不需要启动。
（2）使用此模式需要修改Spark配置文件spark-env.sh，添加Hadoop相关属性，指定Hadoop与配置文件所在目录

export JAVA_HOME=/usr/local/jdk1.8.0_162
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
export HADOOP_HOME=/usr/local/hadoop-2.7.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

3.存盘退出后，执行命令：