spark web UI端口 4040,18080， 8080页面访问不了

最新推荐文章于 2025-01-12 19:38:25 发布

黑桃5200

最新推荐文章于 2025-01-12 19:38:25 发布

阅读量2.5w

点赞数 12

分类专栏：大数据 spark Hadoop

Hadoop 同时被 3 个专栏收录

8 篇文章

订阅专栏

大数据

6 篇文章

订阅专栏

spark

5 篇文章

订阅专栏

Localhost：4040页面访问不了是因为history server没开的问题

Spark history Server产生背景

以standalone运行模式为例，在运行Spark Application的时候，Spark会提供一个WEBUI列出应用程序的运行时信息；但该WEBUI随着Application的完成(成功/失败)而关闭，也就是说，Spark Application运行完(成功/失败)后，将无法查看Application的历史记录；

Spark history Server就是为了应对这种情况而产生的，通过配置可以在Application执行的过程中记录下了日志事件信息，那么在Application执行结束后，WEBUI就能重新渲染生成UI界面展现出该Application在执行过程中的运行时信息；

Spark运行在yarn或者mesos之上，通过spark的history server仍然可以重构出一个已经完成的Application的运行时参数信息（假如Application运行的事件日志信息已经记录下来）；

配置&使用Spark History Server以默认配置的方式启动spark history server：

cd $SPARK_HOME/sbin
start-history-server.sh

Localhost：18080页面访问不了

转载文章 Spark入门 - History Server配置使用 http://blog.csdn.net/surp2011

问题描述

在Spark安装成功后，无论是通过spark-submit工具还是通过Intellij IDEA提交任务，只要在Spark应用程序运行期间，都可以通过WebUI控制台页面来查看具体的运行细节，在浏览器中通过地址：http://<driver-node>:4040即可查看当前的运行状态。但是一旦应用程序运行结束，该Web界面也就失效了，无法继续查看监控集群信息。无法回顾刚刚运行的程序细节，进而定向做出优化，肯定极为不便。

这时候就需要为集群配置Spark History Server了。

注：<driver-node>可以是主机名，如master，也可以是主机名对应的IP。

Spark History Server

Spark History Server可以很好地解决上面的问题。

通过配置，我们可以在Spark应用程序运行完成后，将应用程序的运行信息写入知道目录，而Spark History Server可以将这些信息装在并以Web形式供用户浏览。

要使用Spark History Server，对于提交应用程序的客户端需要配置以下参数。

Spark History Server配置

下面以Standalone模式为例说明配置信息。更多扩展细节可以根据自己的需求在此基础上添加配置项。

1、首先配置$SPARK_HOME$/conf目录下的spark-defaults.conf文件。

默认spark-defaults.conf是不存在的，我们可以根据Spark提供的template文件新建之。

root@master:/usr/local/spark/spark-1.6.2-bin-hadoop2.6/conf#  mv spark-defaults.conf.template  spark-defaults.conf
root@master:/usr/local/spark/spark-1.6.2-bin-hadoop2.6/conf# vim spark-defaults.conf

并修改文件内容为：

spark.eventLog.enabled           true
spark.eventLog.dir      hdfs://master:9000/history
spark.eventLog.compress          true

属性说明

(1) spark.eventLog.enabled。

是否记录Spark事件，用于应用程序在完成后的筹够WebUI。

(2) spark.eventLog.dir。

设置spark.eventLog.enabled为true后，该属性为记录spark时间的根目录。在此根目录中，Spark为每个应用程序创建分目录，并将应用程序的时间记录到此目录中。用户可以将此属性设置为HDFS目录，以便History Server读取。

(3) spark.eventLog.compress。

是否压缩记录Spark事件，前提spark.eventLog.enabled为true，默认使用的是snappy。

2、在HDFS中建立存放目录。

上文已经设置好了存放History的目录HDFS文件目录，现在我们在HDFS中建立相应的目录专门存放文件。

root@master:~# hadoop dfs -mkdir /history

之后的历史记录都会被存放到这里。

3、配置spark-env.sh文件。

在之前的配置项后面

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://master:9000/history

属性说明

(1) spark.history.ui.port

WebUI的端口号。默认为18080，也可以自行设置。

(2) spark.history.retainedApplications

设置缓存Cache中保存的应用程序历史记录的个数，默认50，如果超过这个值，旧的将被删除。

注：缓存文件数不表示实际显示的文件总数。只是表示不在缓存中的文件可能需要从硬盘读取，速度稍有差别。

(3) spark.history.fs.logDirectory

存放历史记录文件的目录。可以是Hadoop APIs支持的任意文件系统。

启动

依次启动Hadoop的start-dfs.sh和Spark的start-all.sh后，再运行start-history-server.sh文件即可启动历史服务。

root@master:/usr/local/spark/spark-1.6.2-bin-hadoop2.6/sbin# ./start-history-server.sh

如果提示文件目录无效，可以直接使用下面的命令指定目录：

root@master:/usr/local/spark/spark-1.6.2-bin-hadoop2.6/sbin# ./start-history-server.sh hdfs://master:9000/history

启动后的效果如下（此时尚未运行程序，没有记录显示出来）：

之后在每次应用程序运行结束后，就可以在这里观察刚刚程序的细节了。

8080页面访问不了

问题
web验证的时候会发现localhost:8080页面访问不了
看到8080肯定会想起tomcat默认端口，其实就是端口占用了

解决办法：
打开master文件

vim sbin/start-master.sh

在vim命令模式下输入 /8080

if [ “$SPARK_MASTER_WEBUI_PORT” = “” ]; then
SPARK_MASTER_WEBUI_PORT=8080 fi

找到后修改该端口为8001
命令模式下保存退出
重启一遍

sbin/start-all.sh

localhost:8001页面就可以访问了

小结

应用程序运行时的4040和历史记录的18080WebUI配合使用，可以让我们在运行Spark应用的时候随时监测程序运行状态，并作相应的优化和调节，效果显著。

小问题

不过其中也有一部分小细节尚未解决：如某次程序允许的时候用户选择自行中断，但历史记录中仍然存在该记录，而且最主要的是目前无法删除单项纪录。这就显得很繁琐了，如果需要对多项历史记录进行对比分析，就不得不先在很多的记录中筛选出哪些是有用记录，哪些是无用记录，费时费力。

虽然官方提供了如spark.history.fs.cleaner.interval和spark.history.fs.cleaner.maxAge配置项，但依然不能很好地解决这一问题。

期待后续有更好的解决方案出现。

spark web UI端口 4040,18080， 8080页面访问不了

Localhost：4040页面访问不了 是因为history server没开的问题

Localhost：18080页面访问不了

Spark History Server

Spark History Server配置

8080页面访问不了

小问题

Localhost：4040页面访问不了是因为history server没开的问题