- spark-defaults.conf 修改
vi spark-defaults.conf
#开关开启
spark.eventLog.enabled true
#日志记录的目录(需要提前创建目录)
spark.eventLog.dir hdfs://192.168.92.200:9000/spark-logs
- spark-env.sh 修改
#展示目录
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://192.168.92.200:9000/spark-logs"
- 启动
./start-history-server.sh
- 验证
存在HistoryServer服务
hadoop001:root:/opt/software/spark-2.2.0-bin-hadoop2.6/sbin:>jps
6448 NameNode
6576 DataNode
7015 NodeManager
21719 HistoryServer
21576 SparkSubmit
21786 Jps
6750 SecondaryNameNode
6910 ResourceManager
访问http:192.168.92.200:18080
-
参数
注意:以spark.history开头的需要配置在spark-env.sh中的SPARK_HISTORY_OPTS,以spark.eventLog开头的配置在spark-defaults.conf。
SPARK_HISTORY_OPTS spark.history.* configuration options for the history server (default: none).- spark.history.fs.update.interval
默认值10秒 。这个参数指定刷新日志的时间,更短的时间可以更快检测到新的任务以及任务执行情况,但过快会加重服务器负载。 - spark.history.ui.maxApplication
默认值int.MaxValue(整型最大值) 。这个参数指定UI上最多显示的作业的数目。 - spark.history.ui.port
默认值18080 。history-server的网页UI端口号。 - spark.history.fs.cleaner.enabled
默认为false 。这个参数指定history-server的日志是否定时清除,true为定时清除,false为不清除。这个值一定设置成true,不然日志文件会越来越大。 - spark.history.fs.cleaner.interval
默认值为1d 。这个参数指定history-server的日志检查间隔,默认每一天会检查一下日志文件。 - spark.history.fs.cleaner.maxAge
默认值为7d。这个参数指定history-server日志生命周期,当检查到某个日志文件的生命周期为7d时,则会删除该日志文件。 - spark.eventLog.compress
默认值为false 。这个参数设置history-server产生的日志文件是否使用压缩,true为使用,false为不使用。这个参数务可以成压缩哦,不然日志文件岁时间积累会过大 - spark.history.retainedApplications
默认值:50。在内存中保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,当再次访问已被删除的应用信息时需要重新构建页面。
- spark.history.fs.update.interval
-
其他
- 在18080页面显示的任务local模式是以local开头,yarn模式是以application开头
- 一定要使用sc.stop停止任务,否则在日志只会incomplete页面中。
-
原地址:https://blog.csdn.net/yu0_zhang0/article/details/80396080