NameNode格式化——组件恢复,数据丢失

37 篇文章 0 订阅
5 篇文章 1 订阅
本文记录了一次因误操作导致的HDFS格式化后的恢复过程,包括停止HDFS进程、删除数据和日志、启动JournalNode、格式化HDFS、恢复StandbyNameNode以及恢复依赖服务等关键步骤,强调了环境管理和操作谨慎的重要性。
摘要由CSDN通过智能技术生成

前情提要

近段时间测试环境被研发整了一个特别离谱的事情,因为HDFS重启没启动起来,直接执行了format操作,大言不惭说的是百度这么说的,过了年以后我上环境看的时候,发现环境直接不能用了,然后启动也启动不起来,项目经理追着维护人员恢复环境,对开发把环境整崩的事情闭口不提,也是离谱。

过程记录

这种情况数据就别指望恢复了,直接怼HDFS进行格式化吧,因为服务器资源就这么些,这个环境还不能重装系统,最保险的方式就是重新格式化HDFS了,否则到时候重装各种组件,旧文件删除不完全啥的,都是坑。

准备工作

停止HDFS进程

停止所有假死的HDFS进程,保证没有进程还存在
在这里插入图片描述

删除数据

由于研发格式化过一次,产生了新的集群信息和数据信息,手动删除一下,具体路径可以参考配置文件hdfs-site.xml的dfs.datanode.data.dir
在这里插入图片描述

删除日志和临时目录

具体的路径可以查看配置文件中的hadoop.tmp.dir和日志配置项:
在这里插入图片描述

启动JournalNode服务

由于启用了HA,所以格式化过程中会去连接JournalNode服务,如果不保证JN服务正常提供服务,初始化会失败:
在这里插入图片描述

格式化HDFS

执行NameNode格式化

保证JN服务正常后,再次format,注意!必须使用正确的用户进行,如果之前启动HDFS的用户是hdfs用户,就必须使用hdfs用户进行,否则会出现文件权限问题,需要手动授权

hdfs namenode -format

在这里插入图片描述
格式化完成后,启动NameNode,此时可以访问WebUI检查状态:
在这里插入图片描述

恢复Standby NameNode

此时的HDFS还不是HA,切换到hdfs用户,执行bootstrapStandby命令:
在这里插入图片描述

启动Standby NameNode

此时可以正常启动Standby的NameNode,并检查WebUI:
在这里插入图片描述
在这里插入图片描述

恢复依赖服务

接下来依次恢复其他的依赖服务,如HBASE、HIVE等:
在这里插入图片描述

小结

环境一定不要让乱搞的研发人员上去操作,百度到的命令不管什么含义都敢直接执行,这种人能带来的灾难绝对不止一点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Meepoljd

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值