为什么要使用Spark History Server
在Spark安装成功后,无论是通过spark-submit工具还是通过Intellij IDEA提交任务,只要在Spark应用程序运行期间,都可以通过WebUI控制台页面来查看具体的运行细节,在浏览器中通过地址:http://<driver-node>:4040即可查看当前的运行状态。但是一旦应用程序运行结束,该Web界面也就失效了,无法继续查看监控集群信息。无法回顾刚刚运行的程序细节,进而定向做出优化,肯定极为不便。
这时候就需要为集群配置Spark History Server了。
注:<driver-node>可以是主机名,如master,也可以是主机名对应的IP。
Spark History Server可以很好地解决上面的问题。
通过配置,我们可以在Spark应用程序运行完成后,将应用程序的运行信息写入知道目录,而Spark History Server可以将这些信息装在并以Web形式供用户浏览。
要使用Spark History Server,对于提交应用程序的客户端需要配置以下参数。
配置步骤
1. 首先配置$SPARK_HOME$/conf目录下的spark-defaults.conf文件。
默认spark-defaults.conf是不存在的,我们可以根据Spark提供的template文件新建之。
并修改文件内容为:
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop000:8020/log/sparrk/spark_directory