一、配置目的
我们在spark上运行程序的时候会经历很多次任务失败,而任务结束后,我们无从得知问题处在哪里,Spark提供了History Server服务可以保存历史Application的运行记录,帮助我们更好的解决问题。
官方文档参考:https://spark.apache.org/docs/latest/configuration.html
二、基本原理
Spark作业将作业执行的记录写到hdfs上,然后history server从对应的路径上读取作业的运行记录,解析之后展示到页面上。
三、启动History
1.准备一个spark-client
2.基本配置
两种配置方式,spark-defaults.conf中直接添加配置项和在spark-env.sh中配置环境变量SPARK_HISTORY_OPTS二选一
比如,在spark-default.conf 直接添加配置项:
spark.history.ui.port 8642
spark.history.fs.logDirectory hdf