hadoop namenode启动不了_0532-6.1-如果你的NameNode服务器坏了并且无法恢复

1.文档编写目的

Fayson在最近写了很多关于NameNode恢复,或者NameNode角色迁移相关的文章,但都是基于HDFS已经启用HA的情况来操作的包括你将要阅读的本文,这也是Hadoop作为一个生产系统所必须的,当然假如万一你没有启用HDFS HA,涉及单个NameNode的备份恢复或者迁移节点,可以参考Fayson很早之前的一篇文章《0360-NameNode Metadata备份和恢复最佳实践》。

在前面的文章中,主要是《0526-6.1-如果你不小心删了一个NameNode1》和《0527-6.1-如果你不小心删了一个NameNode2》,我们假定的一个场景是你不小心删掉了某个NameNode节点上的所有角色包括NameNode,JournalNode和Failover Controller,或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点,然后你想再把这个节点加回去,具体该如何操作。

这次我们将这种假定场景的恶劣程度进行升级,你的集群中的NameNode,JournalNode和Failover Controller三个角色所在的硬件服务器突然遭遇天灾人祸,完全损坏了,而且没办法恢复,这时我们如何将一台全新的服务器重新加入集群并分配这些角色还能保证HDFS服务正常启动并运行呢。Fayson在接下来的本文将会进行细致的描述说明。

  • 测试环境

1.CDH6.1

2.Redhat7.4

3.HDFS已经启用HA

4.采用root进行操作

2.模拟异常

1.首先Fayson准备一个正常的CDH6.1的集群,并且HDFS已经启用了HA。

8e267c8547d59879ee2211514602b653.png

2.我们停止ip-172-31-9-113.ap-southeast-1.compute.internal节点上的NameNode,JournalNode和Failover Controller服务。

590d024c1a1930ff89fd03524538d020.png
abcd9d58bb71cd9ab29d373cdf9e6060.png

3.删除这三个角色,注意下表已经少了这三个角色。

6946a0f54342bf74dfc29a91efd4c559.png

4.这是HDFS服务直接报错了。

3 个验证错误。 Quorum Journal 需要至少三个 JournalNode Quorum Journal 需要奇数的 JournalNode Nameservice nameservice1 has no SecondaryNameNode or High-Availability partner1 个验证警告。 在 NameNode (ip-172-31-6-83) 个非 HA Nameservice nameservice1 上启用自动故障转移不起作用。
68b25b2d2eea94030b08add2a27bbc4b.png

5.这里模拟的是ip-172-31-9-113这个节点完全损坏,因为Fayosn的集群机器个数有限,ip-172-31-9-113这个节点实际还有DataNode角色,请忽略。然后我们将会在一个新的节点ip-172-31-4-105上重新设置NameNode相关角色并且尝试进行恢复HDFS服务。

3.故障修复方法1

1.我们选择HDFS服务,然后点击“操作”,发现虽然是HDFS HA的集群,操作列表显示却是“启用High Availability”,实际应该是“禁用High Availability”,应该是因为手动删除了一个NameNode后引起的。

3c83625cd98e4803d4218df93c5a371e.png

2.我们先尝试点击该按钮,尝试重新启用HDFS的HA。

920c17c688f0aeb00c6bdedf9e90fd81.png
8e91e664a9e46795e5a4b323cf38ca96.png

这里我们选择之前的删掉的NameNode和JournalNode节点

ip-172-31-4-105.ap-southeast-1.compute.internal

90cb54e7e395948f19204c5a6c08e08e.png
63fb151d45c8e73026c18465552b5211.png
78b1caeff4c6ac3e8924636e7fd364f0.png

报错,启用失败,实际其实我们已经选择了三个JournalNode,但仍旧报错需要3个JournalNode,返回,我们继续尝试。

4.故障修复方法2

1.从以下界面把删掉的NameNode,JournalNode和Failover Controller的三个角色再给加回去。注意是加到新的节点ip-172-31-4-105。

1330af2bdf6e35baa84255015ce738f9.png

2.点击添加角色实例,并相应的选择之前删掉NameNode,JournalNode和Failover Controller角色所在的主机ip-172-31-4-105.ap-southeast-1.compute.internal

6beaa147be55939e7db56eea85e16df9.png
b6ae177ac07aa5490634dcf4c7194d76.png

3.点击“继续”

fac84ba36b6e3545be842ab6b82f2bc1.png

4.点击“完成”

90d439159a65023f521df13ea2171d4c.png

5.直接重启HDFS服务,尝试拉起刚刚新加的三个角色

a6f28ac83b923f1c626af24e0dedf227.png

还是失败。

6.进入ip-172-31-4-105.ap-southeast-1.compute.internal节点所在的NameNode配置页面。

5d66fdb42a7c179f63e5366212804774.png

选择“配置”标签页

9d41dbc83fd4e31dd4d4391e758ff190.png

在“NameNode Nameservice”配置项中输入nameservice1,这里根据你集群启用HA后的实际情况nameservice的名字输入,然后保存。

03fada96559de2208dd5d8120c240bd0.png

7.在“Quorum Journal 名称”配置项也输入nameservice1,这里根据你集群启用HA后的实际情况nameservice的名字输入,然后保存。

fb90623110d3e8de8afac49125f791e6.png

8.勾选“启用自动故障转移”,然后保存。

adcdc6aa544d391b8d07c4f5a6761704.png

9.回到HDFS服务的实例页面,发现之前的错误已经消失了。

718a7fc74c5535058eada6191f85d71c.png

10.回到CM主页重新部署客户端,并重启集群所有服务。

79c27a9f45abf21907f8826503a4b78d.png
8c81fb5e32000f92c5a8b71d98f3b137.png
f3ccafab43bf8b305a335fd08d5d130e.png

点击“立即重启”,开始重启整个集群,并且会部署客户端配置。

ed333fb30af4dd80e676d1a25528aff1.png
8be124e18661a98ca48dc78ee93b2331.png

重启失败,主要是新加的节点ip-172-31-4-105作为NameNode角色起不来,查看角色日志报错如下:

Failed to start namenode.java.io.IOException: NameNode is not formatted. at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:237) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:1082) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:707) at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:665) at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:727) at org.apache.hadoop.hdfs.server.namenode.NameNode.(NameNode.java:950) at org.apache.hadoop.hdfs.server.namenode.NameNode.(NameNode.java:929) at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1653) at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1720)
6b2a8dd66387a2e2c3f1a49600334596.png

11.先手动只是部署客户端配置

663e001f2626410fe3b254be0ed6cd22.png

部署成功

c38b1341a68dba9feaa833b3b1099923.png

12.因为新加的节点ip-172-31-4-105上虽然划分了NameNode和JournalNode角色,但是没有JournalNode的edits数据,我们从之前正常的节点ip-172-31-6-83拷贝相应的数据到ip-172-31-4-105

cd /dfstar czvf jn.tar.gz jn/scp jn.tar.gz root@ip-172-31-4-105:/dfs
f0f7ab8550857ededaddc8856e88cbe7.png

注:/dfs/jn目录为Fayson集群的HDFS配置的JournalNode目录。

13.登录到ip-172-31-4-105节点进入/dfs目录进行确认。

2153c65fa3043950a705d41cf9181b42.png

已经有nn和jn目录,实际是空的,因为ip-172-31-4-105为一个新的节点,我们先删除掉nn和jn目录,然后解压从ip-172-31-6-83传过来的2个压缩文件。

[root@ip-172-31-4-105 dfs]# rm -rf nn[root@ip-172-31-4-105 dfs]# rm -rf jn[root@ip-172-31-4-105 dfs]# tar xvzf jn.tar.gz
f86ba946d8bbb9afe80e02a434012aee.png

注意:务必保证jn解压后的权限与属组正确,可以与健康节点ip-172-31-6-83中的相应目录进行比对。

14.回到CM主页,再次重启HDFS服务

1518c7ae4b5d74ea1f42c72fab4ee5f8.png

还是重启失败,失败错误与之前一致。

f5ebe6158a2224e2d909bf8ae580a9b1.png

15.回到HDFS服务页面,我们发现只是ip-172-31-4-105上的NameNode服务没起来,JN服务比之前好一点,还是启动成功了。

17981c974ae2fecfbfa1f87e7999eb0c.png

16.进入ip-172-31-4-105的NameNode页面,选择“操作” – > “引导备用NameNode”,这个操作会将之前的NameNode ip-172-31-6-83上的fsimage拷贝到新的NameNode节点上。

12d72e9c2ec9b80e02c647ed63a080b7.png
91a6044b04565853eeb19f85417e0537.png

引导成功:

d180f3bcadf10ceec3423329180203b5.png

17.启动ip-172-31-4-105节点上失败的NameNode服务

798140c60d0fc6ac5a76c438d589d1fc.png
ed2d687627078931ca687e0533c52c73.png

启动成功:

367d7c6e1bf73fa387b4028c9f224f39.png

18.进入HDFS服务页面,选择“操作”->“滚动编辑”,该步骤是为了同步3个JournalNode

b21bb10063752d9a7669eef3de72a2df.png
9bf7ca97bd48dbc3d0a8a11923e9ecd5.png
05ef6bc18e745851b73d25ac6bbba2eb.png

同步成功

bf73ce93a16f333d62c522928011528d.png

至此,HDFS服务已经恢复了正常:

7d764cacfb58c6989cc7b26acf155940.png

19.HDFS简单功能测试

9ba86446fa64a593fa62eb316dea4d0e.png

5.总结

1.因为涉及管理节点NameNode相关的操作,所以你如果出现本文假设的情况,在按照本文进行操作前,最好备份NameNode的元数据以及JournalNode的edits数据,本文节省篇幅省略了该步骤。

2.本文有很多内容是与《0526-6.1-如果你不小心删了一个NameNode1》文章相同的,但是我们需要注意的是本文新加的NameNode角色节点ip-172-31-4-105是没有相关的NameNode元数据目录和JournalNode的edits目录的,包括这些目录中的数据,本文是通过手动的方式来进行恢复的。

3.首先是从另外一个NameNode上拷贝JournalNode的edits目录到新节点ip-172-31-4-105(拷贝过程中请务必注意目录的属组与权限),拉起该节点的JN服务后,通过CM界面化命令“引导备用NameNode”,将NameNode的元数据从ip-172-31-6-83节点拷贝到新的NameNode ip-172-31-4-105。然后启动ip-172-31-4-105节点上的NameNode服务才能成功。

4.最后请不要忘记执行JournalNode的Roll Edits操作,以强制同步3个JournalNode节点,因为ip-172-31-4-105上的JN角色也是新加入的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值