第十章 spark配置历史服务

开朗小哥

已于 2022-04-30 21:51:30 修改

阅读量2.1k

点赞数 2

分类专栏： Hadoop+spark学习笔记文章标签： spark hadoop hdfs

于 2022-02-18 08:22:16 首次发布

本文链接：https://blog.csdn.net/qq_49101550/article/details/122971711

版权

Hadoop+spark学习笔记专栏收录该内容

10 篇文章 6 订阅

订阅专栏

系列文章：
第一章 Hadoop集群搭建的准备
 第二章 Hadoop集群搭建
 第三章 Zookeeper分布式集群部署（2n+1台虚拟机）
第四章 Hadoop高可用集群搭建（HA）
第五章 Hive的安装与配置
待更新
第九章 spark独立模式部署（Standalone）
第十章 spark配置历史服务
 第十一章搭建Spark高可用（HA）
第十二章 spark配置Yarn模式（混合部署模式）
待更新

文章目录

修改配置文件（先进入spark-3.1.2的conf目录）

由于spark-shell停止后，集群监控node1:4040页面就看不到历史任务的运行情况了，所以开发时要配置历史服务记录任务运行情况。

修改配置文件（先进入spark-3.1.2的conf目录）

1、修改spark-defaults.conf文件。

mv spark-defaults.conf.template spark-defaults.conf
vim spark-defaults.conf

添加以下内容，配置日志存储路径：

spark.eventLog.enabled	true
spark.eventLog.dir	hdfs://node1:9000/directory

===============================================
如果是yarn模式的spark，则多两行配置（不是yarn模式则不需要关注以下内容）：

spark.eventLog.enabled	true
spark.eventLog.dir	hdfs://node1:9000/directory
#以下是多出来的两行配置
spark.yarn.historyServer.address=node1:180180
spark.history.ui.port=18080

===============================================
在HDFS上创建/directory目录：

start-dfs.sh
hdfs dfs -mkdir /directory

2、修改spark-env.sh文件，执行以下操作。

mv spark-env.sh.template spark-env.sh
vim spark-env.sh

添加日志配置：

#添加JAVA_HOME环境变量和集群对应的master节点
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://node1:9000/directory
-Dspark.history.retainedApplications=30"

第一个参数：WEB UI访问的端口号为18080。
第二个参数：指定历史服务日志存储路径。
第三个参数：指定保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。

3、将配置好后的配置文件分发到其他虚拟机。

scp -r /export/servers/spark-3.1.2/conf node2:/export/servers/spark-3.1.2/
scp -r /export/servers/spark-3.1.2/conf node3:/export/servers/spark-3.1.2/

4、启动集群和历史服务。

进入/export/servers/spark-3.1.2目录，执行以下命令：

#hadoop
start-all.sh
#spark
sbin/start-all.sh
#历史服务
sbin/start-history-server.sh

5、提交应用测试集群。

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node1:7077 \
./examples/jars/spark-examples_2.12-3.1.2.jar \
10

查看历史服务，浏览器地址栏输入：http://node1:18080http://192.168.1.134:18080
（Master的IP地址和端口号）

开朗小哥

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
3
评论
第十章 spark配置历史服务

系列文章：第一章 Hadoop集群搭建的准备第二章 Hadoop集群搭建第三章 Zookeeper分布式集群部署（2n+1台虚拟机）第四章 Hadoop高可用集群搭建（HA）待更新文章目录修改配置文件（先进入spark-3.1.2的conf目录）1、修改spark-defaults.conf文件。2、修改spark-env.sh文件，执行以下操作。3、将配置好后的配置文件分发到其他虚拟机。4、启动集群和历史服务。5、提交应用测试集群。由于spark-shell停止后，集群监控node1:4
复制链接

扫一扫