如果作业正在运行,日志可以从以下来看:
192.168.1.101:4040
这个是spark的log上有的
如果作业已完成,日志可以这样设置:
spark-defaults.conf 增加如下内容
spark.eventLog.enabled true
spark.eventLog.dir file:///tmp/spark-events
spark.eventLog.compress true
启动$SPARK_HOME/sbin/start-history-server.sh
默认情况下这将在 http:// <服务器url >:18080创建一个web界面。
我的是http://192.168.1.101:18080
一些外部工具可以用来帮助提升Spark Job的性能:
· 整个集群范围的监视工具,如 Ganglia ,可以提供集群的总体利用率和资源瓶颈。
· 操作系统分析工具如 dstat , iostat , iotop等可以提供单个节点细粒度的分析。
· JVM 实用工具如jstack 可以提供栈跟踪信息, jmap 可以生成堆dump, jstat报告分时统计以及jconsole等对于JVM内部结构分析都是非常有用的.