1、Spark的历史服务-spark history server
在实际生产中,需要查看已经执行的任务的详细日志信息
1.1 配置历史服务
1.1.1 修改spark conf下的spark-defaults.conf,添加
# 启用spark history server eventlog.dir会为每一个任务创建一个子目录
spark.eventLog.enabled true
spark.eventLog.dir hdfs://linux01.pub:9000/spark-logs
spark.eventLog.enabled: 是否启用spark history
spark.eventLog.dir : hdfs中日志的存储位置
1.1.2 在hdfs中创建spark-logs目录
hdfs dfs -mkdir /spark-logs
1.1.3 修改spark-env.sh,加入
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retained-applications=3 -Dspark.history.fs.logDirectory=hdfs://linux01.pub:9000/spark-logs"
-Dspark.history.retained-applications:允许存放的日志个数,如果超过此值则旧的日志会从内存中移除,但不会在HDFS中删除
-Dspark.history.fs.logDirectory:指定存放历