0527-6.1-如果你不小心删了一个NameNode2

最新推荐文章于 2022-07-28 17:06:22 发布

Hadoop_SC

最新推荐文章于 2022-07-28 17:06:22 发布

阅读量374

点赞数

分类专栏： Hadoop实操

本文链接：https://blog.csdn.net/Hadoop_SC/article/details/103562809

版权

Hadoop实操专栏收录该内容

412 篇文章 61 订阅

订阅专栏

1 文档编写目的

在启用了HDFS HA的集群，2个NameNode节点上一般都会部署三个角色：NameNode，JournalNode和Failover Controller。在实际生产中，我们有时会碰到一个情况，你不小心删掉了某个NameNode节点上的所有角色包括NameNode，JournalNode和Failover Controller，或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点，然后你想再把这个节点加回去的时候，发现无论如何HDFS服务都没办法正常使用了。本文Fayson会在一个HDFS HA的CDH集群中模拟这种情况，然后尝试去解决，即先删除一个NameNode，然后这时HDFS会故障，我们来看看如何恢复故障。有兴趣的读者可以注意本文的处理方式与上篇文章《0526-6.1-如果你不小心删了一个NameNode1》的区别，上篇文章是比较健康的将删掉的NameNode再加回去，本文提供的是手动将HDFS HA回退，最后只会保留一个NameNode，也算另一种思路，万一你使用《0526-6.1-如果你不小心删了一个NameNode1》中的方法没办法恢复呢，是吧。

测试环境

1.CDH6.1

2.Redhat7.4

3.采用root进行操作

2 模拟异常

1.首先Fayson准备一个正常的CDH6.1的集群，并且HDFS已经启用了HA。

2.我们停止ip-172-31-9-113.ap-southeast-1.compute.internal节点上的NameNode，JournalNode和Failover Controller服务。

3.删除这三个角色，注意下表已经少了这三个角色。

4.这是HDFS服务直接报错了。

3 个验证错误。
    Quorum Journal 需要至少三个 JournalNode
    Quorum Journal 需要奇数的 JournalNode
    Nameservice nameservice1 has no SecondaryNameNode or High-Availability partner
1 个验证警告。
    在 NameNode (ip-172-31-6-83) 个非 HA Nameservice nameservice1 上启用自动故障转移不起作用。

3 故障恢复

1.我们选择HDFS服务，然后点击“操作”，发现虽然是HDFS HA的集群，操作列表显示却是“启用High Availability”，实际应该是“禁用High Availability”，应该是因为手动删除了一个NameNode后引起的。

2.因为我们最终会删掉ip-172-31-9-113节点上的NameNode角色，所以在操作前，我们先备份一下ip-172-31-6-83节点上的NameNode元数据。

[root@ip-172-31-6-83 ~]# cd /dfs
[root@ip-172-31-6-83 dfs]# tar cvzf nn.tar.gz nn

当然你如果有条件也可以备份所有DataNode上的Data目录。

3.停止多余的2个JournalNode以及1个Failover Controller服务，然后删掉这3个角色。

停止成功后，选择这3个服务停止的角色，选择“已选定的操作”->“删除”

删除成功

4.回到HDFS服务，点击“配置”，搜索nameservice

如上图标红的部分的，点击“移除覆盖项”，删除该配置。

保存更改。

5.回到HDFS服务的“实例”页面，看到依旧有报错，缺少一个Secondary NameNode，我们点击“添加角色实例”增加一个Secondary NameNode。

点击“添加角色实例”

点击Secondary NameNode选项框增加一个Secondary NameNode，这里可以随便一个节点。

6.回到CM主页，重启集群所有服务。

重启成功后，发现CM主页才提示需要重新部署客户端。

重新部署客户端配置。

部署成功后，回到CM主页服务一切正常。

7.HDFS简单测试。

8.因为之前的集群是HDFS HA状态，我们还需要去更新Hive元数据，首先停止Hive服务。

点击“更新Hive Metastore NameNode”

更新成功后，重启Hive服务，过程略。

4 总结

1.如果你不小心删掉了某个NameNode节点上的所有角色包括NameNode，JournalNode和Failover Controller，或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点，Fayson提供了两种方法供参考恢复集群的HDFS服务，第一种是比较健康也是比较建议的方式，参考《0526-6.1-如果你不小心删了一个NameNode1》，恢复后集群依旧是HA状态。第二种方法即本文提供的方法，不是太建议，恢复HDFS服务后只有单个NameNode。

2.参见本文的方法，最后恢复HDFS服务后，只有单个NameNode，但因为之前的集群HDFS是有HA的，所以需要更新Hive元数据，否则Hive和Impala无法进行查询。

提示：代码块部分可以左右滑动查看噢
为天地立心，为生民立命，为往圣继绝学，为万世开太平。
温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。

Hadoop_SC

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
0527-6.1-如果你不小心删了一个NameNode2

1 文档编写目的在启用了HDFS HA的集群，2个NameNode节点上一般都会部署三个角色：NameNode，JournalNode和Failover Controller。在实际生产中，我们有时会碰到一个情况，你不小心删掉了某个NameNode节点上的所有角色包括NameNode，JournalNode和Failover Controller，或者你不小心通过Cloudera Manager...
复制链接

扫一扫