flink项目namenode启动失败：Journal storage directory /tmp/hadoop/dfs/journalnode/hadoopha not formatted

最新推荐文章于 2022-12-27 17:05:36 发布

Wesson96

最新推荐文章于 2022-12-27 17:05:36 发布

阅读量1.5k

点赞数 2

分类专栏： Centos7 文章标签： flink hadoop centos

本文链接：https://blog.csdn.net/sndayYU/article/details/115467569

版权

Centos7 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

本文讲述了在Flink HA环境中，重启JobManager节点导致Namenode与JournalNode不一致的问题，如何通过初始化共享编辑并修复状态存储来解决，以及后续JobManager启动失败和文件丢失的处理过程。

摘要由CSDN通过智能技术生成

在测试flink的HA时，把某个节点（部署了jobmanager和namenode）的节点reboot了，然后启动时发现namenode没有起来，报错大概如下：

org.apache.hadoop.hdfs.qjournal.protocol.JournalNotFormattedException: Journal Storage Directory /tmp/hadoop/dfs/journalnode/xxxx not formatted
	at org.apache.hadoop.hdfs.qjournal.server.Journal.checkFormatted(Journal.java:457)

原因：大概为journalnode保存的元数据和namenode的不一致，导致，3台机器中有2台报了这个错误。

解决：在nn1上启动journalnode，再执行hdfs namenode -initializeSharedEdits，使得journalnode与namenode保持一致。再重新启动namenode就没有问题了。

但又遇到flink的jobmanager启动不了，报错如下：

ERROR org.apache.flink.runtime.entrypint.XlusterEntrypoint   -Fatal error occurred in the cluster entrypoint.
	org.apache.flink.runtime.dispatcher.DispatcherException: Failed to take leadership with session id xxxxxxxxxxxxxxxxxxxxxxxxxx
	....
caused by: java.lang.RuntimeException: org.apache.flink.util.FlinkException: Could not retrieve submitted JobGraph from state handle under /xxxxx. This indicates that the retrieved state handle is broken. Try cleaning the state handle store.
..
caused by: java.io.FileNotFoundException: File does not exitst: /xxxx/submittedJobGraphe439cfc979db

节点reboot时，是有任务在执行的，而刚才journalnode的initializeSharedEdits导致某些文件丢失了，而jobmanager在读取这个提交的job时发生了报错，故在zookeeper删除flink任务的引用即可

./zkCli.sh -server zookeeper的host

set /flink/default/running_job_registry/xxxxx DONE
delete /flink/default/jobgraphs/xxxx

解决后，重新启动jobmanager、taskmanager没有问题了，再提交任务就可以了。

Wesson96

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录