HDFS JournalNode 故障

最新推荐文章于 2024-07-29 14:12:14 发布

Mumunu-

最新推荐文章于 2024-07-29 14:12:14 发布

阅读量1k

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h952520296/article/details/104922935

版权

hadoop 专栏收录该内容

82 篇文章 6 订阅

订阅专栏

某天凌晨四点左右，HBase RegionServer 宕机自动拉起，查看日志发现是HDFS 在进行HA切换，15次重试仍连不上可写的active，于是挂了。所以根本问题是hdfs。

日志定位

通过日志定位，发现JournalNode一直在抛错，几乎打满了日志：

该链接CDH专家表示 ([Solved] hdfs journalnode fail, can not start ) ，很可能是JN(JournalNode)文件损坏或HDFS升级后文件版本不一致，在我们这边升级这种原因可以排除。

随后我们又在JN的out重定向中发现了磁盘空间不足错误：

分析

根据现有的日志，我们猜测，可能是4点HDFS切换主从时，此台机器的JN写edit_log过程中磁盘爆了，然后JN进程 OOM退出，导致edit_log不完整，处于corrupted状态。我们的集群是3 JournalNode，另外两台日志看起来正常。

解决办法

将故障机的JN停机，对应目录下的edit_inprogress_*全部move走，再单独启动那台机的JN。它会自动从其他JN同步edit_log，从而恢复正常。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。