Can't scan a pre-transactional edit log，Timed out waiting 120000ms ，JournalNode数据文件破坏集群恢复方法

最新推荐文章于 2023-03-17 13:53:43 发布

mnasd

最新推荐文章于 2023-03-17 13:53:43 发布

阅读量920

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/mnasd/article/details/80276364

版权

hadoop 专栏收录该内容

54 篇文章 3 订阅

订阅专栏

journalnode 文件破坏

2018-05-10 16:43:48,446 WARN  namenode.FSImage (EditLogFileInputStream.java:scanEditLog(364)) - After resync, position is 798720
2018-05-10 16:43:48,446 WARN  namenode.FSImage (EditLogFileInputStream.java:scanEditLog(359)) - Caught exception after scanning through 0 ops from /hadoop/hdfs/journal/hdp/current/edits_inprogress_0000000000013714547 while determining its valid length. Position was 798720
java.io.IOException: Can't scan a pre-transactional edit log.
        at org.apache.hadoop.hdfs.server.namenode.FSEditLogOp$LegacyReader.scanOp(FSEditLogOp.java:4959)
        at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream.scanNextOp(EditLogFileInputStream.java:245)
        at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream.scanEditLog(EditLogFileInputStream.java:355)
        at org.apache.hadoop.hdfs.server.namenode.FileJournalManager$EditLogFile.scanLog(FileJournalManager.java:551)
        at org.apache.hadoop.hdfs.qjournal.server.Journal.scanStorageForLatestEdits(Journal.java:192)
        at org.apache.hadoop.hdfs.qjournal.server.Journal.<init>(Journal.java:152)
        at org.apache.hadoop.hdfs.qjournal.server.JournalNode.getOrCreateJournal(JournalNode.java:90)
        at org.apache.hadoop.hdfs.qjournal.server.JournalNode.getOrCreateJournal(JournalNode.java:99)
        at org.apache.hadoop.hdfs.qjournal.server.JournalNodeRpcServer.getEditLogManifest(JournalNodeRpcServer.java:189)
        at org.apache.hadoop.hdfs.qjournal.protocolPB.QJournalProtocolServerSideTranslatorPB.getEditLogManifest(QJournalProtocolServerSideTranslatorPB.java:224)
        at org.apache.hadoop.hdfs.qjournal.protocol.QJournalProtocolProtos$QJournalProtocolService$2.callBlockingMethod(QJournalProtocolProtos.java:25431)
        at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:640)
        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:982)
        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2313)
        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2309)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1724)
        at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2307)

解决方案文档如下

简介：

CDH5.11集群，由于停电造成节点全部挂掉，重启后HDFS报错，同时由于HDFS报错，引起其他基于HDFS的应用如HBASE等也报错，恢复方法如下。

报错介绍：

我这里的错误，摘录部分日志如下：

在namenode中的报错如下

    2017-07-03 13:53:10,377 FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [192.168.60.43:8485, 192.168.60.45:8485, 192.168.60.46:8485], stream=null)) 
  
    java.io.IOException: Timed out waiting 120000ms for a quorum of nodes to respond. 
  
            at org.apache.hadoop.hdfs.qjournal.client.AsyncLoggerSet.waitForWriteQuorum(AsyncLoggerSet.java:137) 
  
            at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.createNewUniqueEpoch(QuorumJournalManager.java:183) 
  
            at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.recoverUnfinalizedSegments(QuorumJournalManager.java:441) 
  
            at org.apache.hadoop.hdfs.server.namenode.JournalSet$8.apply(JournalSet.java:624) 
  
            at org.apache.hadoop.hdfs.server.namenode.JournalSet.mapJournalsAndReportErrors(JournalSet.java:393) 
  
            at org.apache.hadoop.hdfs.server.namenode.JournalSet.recoverUnfinalizedSegments(JournalSet.java:621) 
  
            at org.apache.hadoop.hdfs.server.namenode.FSEditLog.recoverUnclosedStreams(FSEditLog.java:1478) 
  
            at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startActiveServices(FSNamesystem.java:1236) 
  
            at org.apache.hadoop.hdfs.server.namenode.NameNode$NameNodeHAContext.startActiveServices(NameNode.java:1771) 
  
            at org.apache.hadoop.hdfs.server.namenode.ha.ActiveState.enterState(ActiveState.java:61) 
  
            at org.apache.hadoop.hdfs.server.namenode.ha.HAState.setStateInternal(HAState.java:64) 
  
            at org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.setState(StandbyState.java:49) 
  
            at org.apache.hadoop.hdfs.server.namenode.NameNode.transitionToActive(NameNode.java:1644) 
  
            at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.transitionToActive(NameNodeRpcServer.java:1378) 
  
            at org.apache.hadoop.ha.protocolPB.HAServiceProtocolServerSideTranslatorPB.transitionToActive(HAServiceProtocolServerSideTranslatorPB.java:107) 
  
            at org.apache.hadoop.ha.proto.HAServiceProtocolProtos$HAServiceProtocolService$2.callBlockingMethod(HAServiceProtocolProtos.java:4460) 
  
            at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617) 
  
            at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073) 
  
            at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2220) 
  
            at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2216) 
  
            at java.security.AccessController.doPrivileged(Native Method) 
  
            at javax.security.auth.Subject.doAs(Subject.java:415) 
  
            at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1920) 
  
            at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2214) 
  
    2017-07-03 13:53:10,382 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 1 
  
    2017-07-03 13:53:10,384 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: SHUTDOWN_MSG:

在JournalNode的日志文件中，报错如下：

    2017-07-03 14:06:36,898 WARN org.apache.hadoop.hdfs.server.namenode.FSImage: Caught exception after scanning through 0 ops from /home/journal/nameservice1/current/edits_inprogress_0000000000002539938 while determining its valid length. Position was 1048576 
  
    java.io.IOException: Can't scan a pre-transactional edit log. 
  
            at org.apache.hadoop.hdfs.server.namenode.FSEditLogOp$LegacyReader.scanOp(FSEditLogOp.java:4610) 
  
            at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream.scanNextOp(EditLogFileInputStream.java:245) 
  
            at org.apache.hadoop.hdfs.server.namenode.EditLogFileInputStream.scanEditLog(EditLogFileInputStream.java:355) 
  
            at org.apache.hadoop.hdfs.server.namenode.FileJournalManager$EditLogFile.scanLog(FileJournalManager.java:551) 
  
            at org.apache.hadoop.hdfs.qjournal.server.Journal.scanStorageForLatestEdits(Journal.java:193) 
  
            at org.apache.hadoop.hdfs.qjournal.server.Journal.<init>(Journal.java:153) 
  
            at org.apache.hadoop.hdfs.qjournal.server.JournalNode.getOrCreateJournal(JournalNode.java:93) 
  
            at org.apache.hadoop.hdfs.qjournal.server.JournalNode.getOrCreateJournal(JournalNode.java:102) 
  
            at org.apache.hadoop.hdfs.qjournal.server.JournalNodeRpcServer.getEditLogManifest(JournalNodeRpcServer.java:186) 
  
            at org.apache.hadoop.hdfs.qjournal.protocolPB.QJournalProtocolServerSideTranslatorPB.getEditLogManifest(QJournalProtocolServerSideTranslatorPB.java:236) 
  
            at org.apache.hadoop.hdfs.qjournal.protocol.QJournalProtocolProtos$QJournalProtocolService$2.callBlockingMethod(QJournalProtocolProtos.java:25431) 
  
            at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:617) 
  
            at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1073) 
  
            at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2220) 
  
            at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2216) 
  
            at java.security.AccessController.doPrivileged(Native Method) 
  
            at javax.security.auth.Subject.doAs(Subject.java:415) 
  
            at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1920) 
  
            at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2214) 
  
    2017-07-03 14:14:59,948 INFO org.apache.hadoop.hdfs.qjournal.server.JournalNode: STARTUP_MSG:

恢复方法：

1.初步分析：经过查看日志，我分析的原因是JournalNode维护的edits文件被破坏了。我共有3个Journalnode节点，其中有2个节点的日志在报上面journalnode的错，有一台Journalnode的日志没有发现报错。于是初步分析，那2台出现的破坏，只需要将第三台完好的Journalnode的数据拷贝过去，应该就能够恢复。下面开始操作。

2.实际步骤：

①首先停掉集群所有服务。

②为了保险起见，备份所有journalnode节点维护的数据。我的journalnode数据目录是/home/journal，于是使用tar命令打包备份（这一步所有journalnode节点都要操作）：

    cd /home/journal 
  
    tar  -zcvf journal.bak.tar.gz  ./journal

③删除破损数据：分别进入出了问题的journalnode节点的数据目录，删除数据.(这一步只在日志报错的journalnode节点操作)

    cd  /home/journal/nameservice1/current 
  
    rm -rf *

④复制数据：使用scp，将完好的journalnode节点数据复制给出错的journalnode节点。

    cd  /home/journal/nameservice1/current 
   
    scp ./* root@192.168.60.45:/home/journal/nameservice1/current/ 
  
    scp -r ./paxos/ root@192.168.60.45:/home/journal/nameservice1/current/

⑤修改权限：需要将文件权限修改成和以前一样，因为使用scp发送后的数据，文件组和用户会变。可以在完好的journalnode节点上，查看文件所有者和所属组，然后在出问题的journalnode节点上，改成一样的就行。

⑥重启服务。应该就没有问题了

PS：我勒个去，可千万别再停电了。不过生产环境，都是要做备用电源的，测试环境就尴尬了