HDFS HA 场景下NameNode journalnode数据损坏以及故障恢复

最新推荐文章于 2024-06-20 10:55:19 发布

gg1314723

最新推荐文章于 2024-06-20 10:55:19 发布

阅读量1.4k

点赞数

分类专栏： FAQS 文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gg1314723/article/details/116858861

版权

FAQS 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

项目场景：

HDFS HA 场景下NameNode journalnode数据目录损坏以及故障恢复

问题描述：

一套开源的测试集群由于journalnode目录配置错误，导致所有的3个journalnode节点数据目录丢失，启动后hdfs集群进入不可用的状态，3个namenode无法升主，且启动后一段时间会挂掉

在修复过程种，将集群1个namenode节点格式化，有时候要根据网上的正确的来，好多都是教报错的怎么格式化namenode，那样数据不都丢失了吗？

原因分析：

3个journalnode故障且数据丢失，导致namenode不能升主，总共3个namenode以及格式化了一个，也就是还有两个namenode目录中有元数据信息。

解决方案：

好记性不如烂笔头…，当时修复完处理别的问题了，没有记录，现在是真的想不起多少…

总体思路就是如何将两个namenode中的数据复制到journalnode中并恢复jn，在恢复另一个被格式化的namenode。

记得的坑位：
1、被格式化的那个namenode，格式化后这个namenode的version跟其他两个namenode会变得不一致，要改成一致的否则不能修复

大体处理步骤：
1、修改jn的目录配置改成正确的，防止目录丢失
2、执行命令初始化jn :
hdfs namenode -initializeSharedEdits
3、将namenode中的editslog相关文件传到上述步骤设置的目录中
4、启动3个jn，此时3个jn会自动同步文件
5、修改被格式化过namenode的version与其他namenode一致
6、将其他节点的namenode的fsimage和edislog复制到格式化过的namenode中，并启动所有namenode

7、中间可能会有一些报错，在nn恢复的过程中，由于复制的fsimage的txid不同，可能导致报错，要复制最新的也就是之前故障前active状态的nn下的fsimage，可以根据fsimage文件来判断

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

gg1314723 CSDN认证博客专家 CSDN认证企业博客

码龄6年

28: 原创

17万+: 周排名

9万+: 总排名

5万+: 访问

: 等级

376: 积分

661: 粉丝

17: 获赞

45: 评论

69: 收藏

私信

关注

热门文章

分类专栏

数据治理付费 1篇
FAQS 6篇
Flink 4篇
Kafka 1篇
C++ 2篇
Linux 2篇
Keras 1篇
Python 1篇
Doris 1篇
Dolphinscheduler 1篇
HDP自定义服务 2篇
Hudi 1篇
Hive 1篇
ElasticSearch 3篇
推荐系统

最新评论

第一章 HDP 3.1.5 自定义服务之集成Kylin 4.0.1 Spark 3.1.1
sjw2020: 请问一下大佬，集成完成后，构建cube的时候报了异常：ClassCastException: cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.rdd.RDD.dependencies_ of type scala.collection.Seq in instance of org.apache.spark.rdd.MapPartitionsRDD 好多说是版本问题，我把spark2删除了，还是这样，大佬遇到过这个问题吗？
Keras之model.fit_generator()的使用
理塘·丁真: “generator：指需要训练的训练集”这里数据集的类型是 tensor的还是numpy的
第二章 HDP 3.1.5 自定义服务之集成Flink 1.14.3
gg1314723: 在右上角的manager ambari里有，应该是要创建集群才有的
第二章 HDP 3.1.5 自定义服务之集成Flink 1.14.3
Fu_xl: 我没有创建集群啊
第二章 HDP 3.1.5 自定义服务之集成Flink 1.14.3
gg1314723: 这个就是你创建集群的名称呀~

大家在看

八股文---C++基础 83

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。