Futures timed out after [10000 milliseconds] 问题定位

最新推荐文章于 2024-09-25 10:10:30 发布

NoPainsNoGainscsdn

最新推荐文章于 2024-09-25 10:10:30 发布

阅读量1w

点赞数 3

分类专栏： Spark

本文链接：https://blog.csdn.net/NoPainsNoGainsCSDN/article/details/81001556

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Exception in thread “main” java.util.concurrent.TimeoutException: Futures timed out after [10000 milliseconds] 问题定位

1 背景

最近搭建spark集群环境，按照教程将spark从1.3升级到spark1.5。当配置好所有的环境变量和spark-env.sh后，在sbin下执行./start-all时，发现不能启动。
该问题困扰了几天，记录下定位的过程和原因。也许最后得出的结论不是根本原因，但的的确确解决了问题，但愿对以后遇到该问题的朋友有帮助。

2 定位过程

2.1. 检查环境变量

反复检查文档教程，对比~/bashrc和spark-env.sh的环境变量的设置。结果发现按照网上教程似乎配置的变量没有问题。

2.2 查看日志

在对比环境变量后，分别进入master和slave节点的logs目录，在查看slave节点的日志中有以下错误。
主节点的打印是：
Futures timed out after [10000 milliseconds]
slave节点日志打印是:
Caused by: java.io.IOException: Failed to connect to /192.168.2.5:7077
从日志上看，似乎是不能链接到master节点的7077端口，所以怀疑是不是主节点的7077没起来。之后搜到一篇博客的分析步骤很全面，特别是通过命令nmap、telnet 来确保端口是否启动成功。
可以参考以下的链接来定位端口是否启动。
https://blog.csdn.net/ybdesire/article/details/70666544
在当前这个问题，在两个子节点通过tenet来链接7077端口是可以链接上的(似乎原因不是这个)

2.3 时间同步

在问题定位过程中，得到一个spark好友帮助，他发现我的集群中时间不同步，其中竟然master和一台slave的时间相差了足足两天。
由于集群之间涉及通讯问题，所以我们猜测可能是时间不一致导致，或者至少要保证时间一致。所以采用ntp和cron保证集群之间的时间一致。
以下是ntp时间同步的博客，亲测可用。

https://www.cnblogs.com/zjp719325616/p/6530705.html

在将时间弄成同步一致之后，再次启动start-all.sh。卧槽，还是没起来，TM还是报一样的错，最终那个网友也放弃了（还是很感谢）。

2.4 更改8080端口

在确定7077端口起来和保证集群时间同步之后，由于没找到原因但还是无法起来。所以采纳了另外一个网友的意见，更改web的8080端口试试。按照下面这个教程去更改了端口到8099（虽然隐约觉得不是这原因造成的，因为日志没有打印8080端口冲突）
https://blog.csdn.net/xiaoshunzi111/article/details/53173556
按照这个教程进行修改conf下的spark-env.sh后，特么发现问题依然存在。通过日志分析，虽然日志呈现出来的问题依然一样，不过仔细分析打印的问题日志，发现一个奇怪的打印：
Spark Command: /home/hadoop/software/jdk1.7.0_67/bin/java -cp ::/home/hadoop/software/spark-1.2.1-bin-hadoop2.4/sbin/../conf:/home/hadoop/software/spark-1.2.1-bin-hadoop2.4/lib/spark-assembly-1.2.1-hadoop2.4.0.jar:/home/hadoop/software/spark-1.2.1-bin-hadoop2.4/lib/datanucleus-core-3.2.10.jar:/home/hadoop/software/spark-1.2.1-bin-hadoop2.4/lib/datanucleus-rdbms-3.2.9.jar:/home/hadoop/software/spark-1.2.1-bin-hadoop2.4/lib/datanucleus-api-jdo-3.2.6.jar:/home/hadoop/software/hadoop-2.5.2/etc/hadoop:/home/hadoop/software/hadoop-2.5.2/etc/hadoop -XX:MaxPermSize=128m -Dspark.akka.logLifecycleEvents=true -Xms512m -Xmx512m org.apache.spark.deploy.master.Master --ip 192.168.26.131 --port 7077 --webui-port 8080
这个master节点的日志显示，webui-port端口还是8080，似乎之前修改spark-env.sh的端口好8099没有生效，所以怀疑8080端口是不是在哪儿还配置了一份。
通过和其它网友的环境变量的仔细比对，TM发现在bashrc中配置了多余的一份8080和7077端口，
即配置了多余的SPARK_MASTER_PORT和SPARK_MASTER_WEBUI_PORT。晕死！！！原来网上教程有误！！！

3.4 新问题现象

在将~/bashrc的多余的环境变量删除之后(各个节点都删除)，并且将web端口改回8080，重新启动star-all.sh，结果报了线程池无法链接。但是通过日志发现主节点和一个子节点已经成功起来，并且可以通过8080端口进行网页访问，且成功的节点已经注册进来。
通过jps也发现master和一个worker起来。
反复重启几次，发现上一次不能注册的能注册了，反而是上次成功的失败了，感觉是随机出现。