第十二章 spark配置Yarn模式（混合部署模式）

开朗小哥

已于 2024-07-26 15:26:07 修改

阅读量2.7k

点赞数 1

分类专栏： Hadoop+spark学习笔记文章标签： spark hadoop yarn

于 2022-02-20 17:47:52 首次发布

本文链接：https://blog.csdn.net/qq_49101550/article/details/122978560

版权

Hadoop+spark学习笔记专栏收录该内容

11 篇文章 6 订阅

订阅专栏

本文详细介绍了如何将Spark设置为运行在YARN模式下的步骤，包括停止集群、修改Hadoop和Spark配置文件、启动HDFS和YARN、启动Spark集群以及提交应用测试。此外，还提及了配置历史服务以跟踪Spark作业的历史记录。

摘要由CSDN通过智能技术生成

系列文章：
第一章 Hadoop集群搭建的准备
 第二章 Hadoop集群搭建
 第三章 Zookeeper分布式集群部署（2n+1台虚拟机）
第四章 Hadoop高可用集群搭建（HA）
第五章 Hive的安装与配置
待更新
第九章 spark独立模式部署（Standalone）
第十章 spark配置历史服务
 第十一章搭建Spark高可用（HA）
第十二章 spark配置Yarn模式（混合部署模式）
待更新
博客推荐系统（适合初学者的javaweb+hadoop结课设计）
毕业设计博客分享平台的设计与实现（博客推荐系统升级版、大数据组件、可视化大屏、文章查重）

文章目录

Spark设置Yarn模式

Spark设置Yarn模式

前提：进入spark目录（这里是/export/servers/spark-3.1.2）

1.停止集群。

sbin/stop-all.sh

2.修改Hadoop的配置文件。

进入Hadoop的etc/hadoop/目录（这里是/export/servers/hadoop-2.7.4/etc/hadoop）。
打开core-site.xml文件，代码如下：

vim core-site.xml

在<configuration></configuration>标签之间添加以下内容：

	<!--是否开启一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，直接将其杀掉，默认是true-->
	<property>
		<name>yarn.resourcemanager.pmem-check-enabled</name>
		<value>false</value>
	</property>
	<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，直接将其杀掉，默认是true-->
	<property>
		<name>yarn.resourcemanager.vmem-check-enabled</name>
		<value>false</value>
	</property>

3.修改spark-env.sh文件。

修改配置文件（先进入spark-3.1.2的conf目录）

cd /export/servers/spark-3.1.2/conf
vim spark-env.sh

添加JAVA_HOME和YARN_CONF_DIR配置：

export JAVA_HOME=/export/servers/jdk1.8.0
YARN_CONF_DIR=/export/servers/hadoop-2.7.4/etc/hadoop

4.启动HDFS和YARN集群。

start-all.sh

5.启动集群。

sbin/start-all.sh

6.提交应用测试。

进入/export/servers/spark-3.1.2目录

sbin/start-all.sh

命令行输入：

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.1.2.jar \
10

--deploy-mode 指定部署模式，cluster表示集群模式（控制台看不到结果），client表示客户端模式（控制台可以看到结果）。

7、配置历史服务。

步骤与第十章 spark配置历史服务相同，只是在spark-defaults.conf文件中多添加两行配置。
修改spark-defaults.conf文件。

mv spark-defaults.conf.template spark-defaults.conf
vim spark-defaults.conf

添加以下内容，配置日志存储路径：

spark.eventLog.enabled	true
spark.eventLog.dir	hdfs://node1:9000/directory
#以下是多出来的两行配置
spark.yarn.historyServer.address=node1:180180
spark.history.ui.port=18080