1.引言
在使用Spark
的时候,有时候我们会关注job
的历史日志,但是在Spark
中默认情况下,历史日志是关闭的,在本篇博客中主要介绍一下如何启动spark
的历史日志。
博主的环境为:
- 操作系统为
Centos6.7
Hadoop
版本为2.6.1
Hadoop
安装目录为:/usr/local/hadoop
HDFS
的地址为:hdfs://localhost:9000
Spark
的版本为:2.0.0
,且Spark是伪分布安装。
2. 启动Spark历史日志
2.1 安装Spark
如何安装Spark
的伪分布,请参考博文:Spark 2.0.0 伪分布安装
2.2 修改配置文件spark-defaults.conf
//将模板文件修改为配置文件
cp spark-defaults.conf.template spark-defaults.conf
//修改的配置信息
spark.eventLog.enabled true
//设置hdfs的目录,需要和自己hadoop的目录匹配
spark.eventLog.dir hdfs://localhost:9000/var/log/spark
spark.eventLog.compress true
2.3 修改配置文件spark-env.sh
//配置文件最后加入
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs:/localhost:9000/var/log/spark"
2.4 创建日志目录
Spark不会自动创建日志文件夹,因此需要我们自己创建
//首先进入hadoop的bin目录
cd /usr/local/hadoop/bin
//创建文件夹命令
./hadoop fs -mkdir /var
./hadoop fs -mkdir /var/log
./hadoop fs -mkdir /var/log/spark
2.5 启动spark历史日志web端
//进入spark的bin目录
cd /usr/local/spark/sbin
//如果spark集群正在启动,首先停止集群
./stop-all.sh
//重新启动集群
./start-all.sh
//启动job历史端口
./start-history-server.sh
2.6 浏览器查看是否启动成功
- 浏览器输入:http://localhost:18080查看(在linux机器上查看)