查看namenode配置_05326.1如果你的NameNode服务器坏了并且无法恢复

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

Fayson的github:

https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

1

文档编写目的

Fayson在最近写了很多关于NameNode恢复,或者NameNode角色迁移相关的文章,但都是基于HDFS已经启用HA的情况来操作的包括你将要阅读的本文,这也是Hadoop作为一个生产系统所必须的,当然假如万一你没有启用HDFS HA,涉及单个NameNode的备份恢复或者迁移节点,可以参考Fayson很早之前的一篇文章《NameNode Metadata备份和恢复最佳实践》。

在前面的文章中,主要是《0526-6.1-如果你不小心删了一个NameNode1》和《0527-6.1-如果你不小心删了一个NameNode2》,我们假定的一个场景是你不小心删掉了某个NameNode节点上的所有角色包括NameNode,JournalNode和Failover Controller,或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点,然后你想再把这个节点加回去,具体该如何操作。

这次我们将这种假定场景的恶劣程度进行升级,你的集群中的NameNode,JournalNode和Failover Controller三个角色所在的硬件服务器突然遭遇天灾人祸,完全损坏了,而且没办法恢复,这时我们如何将一台全新的服务器重新加入集群并分配这些角色还能保证HDFS服务正常启动并运行呢。Fayson在接下来的本文将会进行细致的描述说明。

  • 测试环境

1.CDH6.1

2.Redhat7.4

3.HDFS已经启用HA

4.采用root进行操作

2

模拟异常

1.首先Fayson准备一个正常的CDH6.1的集群,并且HDFS已经启用了HA。

ab684d45a2d1f3dbc977cb1ac1c11501.png

2.我们停止ip-172-31-9-113.ap-southeast-1.compute.internal节点上的NameNode,JournalNode和Failover Controller服务。

c3d805c39ee5eb29c9f8ee179b4843f9.png

66e375bcde073b8560087882f45aaca5.png

3.删除这三个角色,注意下表已经少了这三个角色。

7ced2a53806a92049606e81a4c4f8e05.png

4.这是HDFS服务直接报错了。

3 个验证错误。
    Quorum Journal 需要至少三个 JournalNode
    Quorum Journal 需要奇数的 JournalNode
    Nameservice nameservice1 has no SecondaryNameNode or High-Availability partner
1 个验证警告。
    在 NameNode (ip-172-31-6-83) 个非 HA Nameservice nameservice1 上启用自动故障转移不起作用。

5d3d2518d54fd7ac4520cb2aeb07c91a.png

5.这里模拟的是ip-172-31-9-113这个节点完全损坏,因为Fayosn的集群机器个数有限,ip-172-31-9-113这个节点实际还有DataNode角色,请忽略。然后我们将会在一个新的节点ip-172-31-4-105上重新设置NameNode相关角色并且尝试进行恢复HDFS服务。

3

故障修复方法1

1.我们选择HDFS服务,然后点击“操作”,发现虽然是HDFS HA的集群,操作列表显示却是“启用High Availability”,实际应该是“禁用High Availability”,应该是因为手动删除了一个NameNode后引起的。

ea6c53c37a17c9a081f55138109b0dfe.png

2.我们先尝试点击该按钮,尝试重新启用HDFS的HA。

5886f6f6a210479736e92b7240178734.png

9e707cd53dd6b17d212142dc4cb4e480.png

这里我们选择之前的删掉的NameNode和JournalNode节点

ip-172-31-4-105.ap-southeast-1.compute.internal

4d1b046757530eab8083307d8b828e59.png

3d7fb8e6665eba307bb1913f968e1775.png

2ca24d76af6a35e535af16f503d27aef.png

报错,启用失败,实际其实我们已经选择了三个JournalNode,但仍旧报错需要3个JournalNode,返回,我们继续尝试。

4

故障修复方法2

1.从以下界面把删掉的NameNode,JournalNode和Failover Controller的三个角色再给加回去。注意是加到新的节点ip-172-31-4-105。

f0bb1f83aad1eb2520ec81ac6b592e72.png

2.点击添加角色实例,并相应的选择之前删掉NameNode,JournalNode和Failover Controller角色所在的主机ip-172-31-4-105.ap-southeast-1.compute.internal

2b081cddb1ab54a18bf3f0ba51317d0a.png

463ae20289bf460ca47b92881a2a19b9.png

3.点击“继续”

02d72abdf9921f9f511078f9c911916d.png

4.点击“完成”

a706e5daf625c302913fcb6d85281c75.png

5.直接重启HDFS服务,尝试拉起刚刚新加的三个角色

de90c5dbfda771759cb390a65b1e0a4d.png

还是失败。

6.进入ip-172-31-4-105.ap-southeast-1.compute.internal节点所在的NameNode配置页面。

d9e2a461e490f47c0202dbe1ab2a5fcd.png

选择“配置”标签页

a20b958a1952bbc103b8995e54549c41.png

在“NameNode Nameservice”配置项中输入nameservice1,这里根据你集群启用HA后的实际情况nameservice的名字输入,然后保存。

d49691ffb1f4c35a65cc08cae804578e.png

7.在“Quorum Journal 名称”配置项也输入nameservice1,这里根据你集群启用HA后的实际情况nameservice的名字输入,然后保存。

9dfdcac55c833a34f99108d02f5aa27d.png

8.勾选“启用自动故障转移”,然后保存。

ce32174d171070c62024fe52668820b1.png

9.回到HDFS服务的实例页面,发现之前的错误已经消失了。

719591ba86f4c56958bc0056ce966193.png

10.回到CM主页重新部署客户端,并重启集群所有服务。

2d761bfd47453d0ebc999f1407b6a44e.png

f6d7c90ababa4b3fdbcfee8c91467089.png

01655df04cf847e46d7d856aa9f5e0f6.png

点击“立即重启”,开始重启整个集群,并且会部署客户端配置。

655f630cc1c4f6aafa9fad9b11438ade.png

09843ae6601a5ce90b99fe2961199a8a.png

重启失败,主要是新加的节点ip-172-31-4-105作为NameNode角色起不来,查看角色日志报错如下:

Failed to start namenode.
java.io.IOException: NameNode is not formatted.
    at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:237)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:1082)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:707)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:665)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:727)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:950)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:929)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1653)
    at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1720)

edb14c2783d963924ec05436eeabd36a.png

11.先手动只是部署客户端配置

1929fadce5c826d3ce66e3fd5ac9e77e.png

部署成功

e1ff7c43236f515c8abfe84a1487fd1e.png

12.因为新加的节点ip-172-31-4-105上虽然划分了NameNode和JournalNode角色,但是没有JournalNode的edits数据,我们从之前正常的节点ip-172-31-6-83拷贝相应的数据到ip-172-31-4-105

cd /dfs
tar czvf jn.tar.gz jn/
scp jn.tar.gz root@ip-172-31-4-105:/dfs

0a011e098758275892e9e91be91a1a24.png

注:/dfs/jn目录为Fayson集群的HDFS配置的JournalNode目录。

13.登录到ip-172-31-4-105节点进入/dfs目录进行确认。

c400aab9bb1d7b11c5045d7266737dcc.png

已经有nn和jn目录,实际是空的,因为ip-172-31-4-105为一个新的节点,我们先删除掉nn和jn目录,然后解压从ip-172-31-6-83传过来的2个压缩文件。

[root@ip-172-31-4-105 dfs]# rm -rf nn
[root@ip-172-31-4-105 dfs]# rm -rf jn
[root@ip-172-31-4-105 dfs]# tar xvzf jn.tar.gz

6564d7d1d9b88ccdb2d677b1aaec45e9.png

注意:务必保证jn解压后的权限与属组正确,可以与健康节点ip-172-31-6-83中的相应目录进行比对。

14.回到CM主页,再次重启HDFS服务

9a6762e627dce68fba13925bd1c55033.png

还是重启失败,失败错误与之前一致。

709821480a5558a765444bcf88f6ecf1.png

15.回到HDFS服务页面,我们发现只是ip-172-31-4-105上的NameNode服务没起来,JN服务比之前好一点,还是启动成功了。

2659431f03d50c9f1d4da98e1de8c32f.png

16.进入ip-172-31-4-105的NameNode页面,选择“操作” – > “引导备用NameNode”,这个操作会将之前的NameNode ip-172-31-6-83上的fsimage拷贝到新的NameNode节点上。

909cdd906808773d5b9dec9c96bf3243.png

de232fe400aa6c003b2829e6a09497d6.png

引导成功:

c3b3b8658290e8a3a54589491259cc29.png

17.启动ip-172-31-4-105节点上失败的NameNode服务

4ba62d0184a793640b080d73e937354b.png

12a6135f0e1c10dd5e5571817a6c9fc5.png

启动成功:

f98a5256dfd1a5430628658482527a59.png

18.进入HDFS服务页面,选择“操作”->“滚动编辑”,该步骤是为了同步3个JournalNode

5f786feceb82103fa7811c544422083b.png

b88a9b1bcd2fcf4d7e7ed317042ae6e9.png

b7fa9b667b65f7615778aa513b640178.png

同步成功

ddb985af08492f52ebbdb41a2a4b328b.png

至此,HDFS服务已经恢复了正常:

8b247fdaf8f2f46f81d03e4d47199933.png

19.HDFS简单功能测试

6e69f0c55bc0354f1058db8dd70361f5.png

5

总结

1.因为涉及管理节点NameNode相关的操作,所以你如果出现本文假设的情况,在按照本文进行操作前,最好备份NameNode的元数据以及JournalNode的edits数据,本文节省篇幅省略了该步骤。

2.本文有很多内容是与《0526-6.1-如果你不小心删了一个NameNode1》文章相同的,但是我们需要注意的是本文新加的NameNode角色节点ip-172-31-4-105是没有相关的NameNode元数据目录和JournalNode的edits目录的,包括这些目录中的数据,本文是通过手动的方式来进行恢复的。

3.首先是从另外一个NameNode上拷贝JournalNode的edits目录到新节点ip-172-31-4-105(拷贝过程中请务必注意目录的属组与权限),拉起该节点的JN服务后,通过CM界面化命令“引导备用NameNode”,将NameNode的元数据从ip-172-31-6-83节点拷贝到新的NameNode ip-172-31-4-105。然后启动ip-172-31-4-105节点上的NameNode服务才能成功。

4.最后请不要忘记执行JournalNode的Roll Edits操作,以强制同步3个JournalNode节点,因为ip-172-31-4-105上的JN角色也是新加入的。

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

3bd72d230ba51214556d481eec1f2f7a.gif

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值