JSTORM 问题排查

最新推荐文章于 2019-05-08 10:58:26 发布

weixin_30552811

最新推荐文章于 2019-05-08 10:58:26 发布

阅读量287

点赞数

原文链接：http://www.cnblogs.com/junwangzhe/p/8003926.html

版权

## 运行时topology的task列表中报"task is dead"错误
有几个原因可能导致出现这个错误：

1. task心跳超时，导致nimbus主动kill这个task所在的worker
2. task对应的 bolt/spout 中的open/prepare/execute/nextTuple等，没有对异常做try...catch，导致抛出异常，导致task挂掉。**这里要注意一下，一个worker中任意一个task如果没有做异常处理，会导致整个worker挂掉，会导致该worker中其他task也报Task is dead**，所以在jstorm的应用代码中，**强烈建议在所有的方法中都加上try...catch**。

具体排查可以这么来做：

1. 如果task是每隔4分钟左右有规律地挂掉，那么基本可以确定是task心跳超时导致的，可以直接跳到3
2. 查看worker日志，在挂掉的时间点是否有异常。但是注意要看挂掉的那个worker的日志，而不是重新起来之后新的worker的日志，因为worker重新起来之后可能位于不同的机器上。
3. 如果worker日志没有异常，那么可以看一下集群nimbus的日志，搜一下："Update taskheartbeat"，然后找到挂掉的worker所对应的topology Id，看看最后更新心跳的时间是什么时候。对比一下task心跳超时的配置（nimbus.task.timeout.secs），如果worker挂掉的时间 - 最后一次更新心跳的时间 > task心跳超时，那么基本上可以确定是因为task心跳超时被kill了。这有几种可能：

* 执行队列被阻塞了，一直没有返回；
* worker发生了FGC，这会导致正常的线程都被停住，从而导致心跳超时。这时要查看一下对应的GC日志，看那个时间点附近有没有FGC；
* worker/task抛出了未处理的异常，如OutOfMemoryError之类的
* 最后也有可能是worker一直没起来, worker心跳超时

转载于:https://www.cnblogs.com/junwangzhe/p/8003926.html