在spark上跑应用程序时,可以在4040端口查看运行情况,但是一旦程序结束,这个端口便关闭了,这时想要查看历史数据,就要启用history server。具体步骤如下:
首先修改spark/conf下的两个配置文件
第一个:spark-env.sh
vim spark-env.sh
添加如下内容
含义:
- history server的web端口为18080
- 保留10个应用程序的历史记录
- 历史记录日志的地址
- 也可以选择其他地址,比如放到hdfs上
保存后source一下
source spark-env.sh
第二个:spark-defaults.conf
没有这个文件的话用spark-defaults.conf.template文件复制一个就好
添加如下内容
含义:
- 启动事件日志
- 事件日志地址
其他参数可以去