hadoop集群硬盘损坏_如何hadoop集群崩溃恢复

最新推荐文章于 2022-12-27 18:16:04 发布

weixin_39603622

最新推荐文章于 2022-12-27 18:16:04 发布

阅读量393

点赞数

文章标签： hadoop集群硬盘损坏

本文链接：https://blog.csdn.net/weixin_39603622/article/details/111519301

版权

崩溃原因

搭建的是一个hadoop测试集群，所以将数据备份参数设置为dfs.replication=1,这样如果有一台datanode损坏的话，数据就会失去。但不幸的是，刚好就有一台机器由于负载过高，导致数据操坏。进而后面需要重启整个hadoop集群,重启后启动namenode启动不了。报如下错误: FSNamesystem initialization failed saveLeases found path /tmp/xxx/aaa.txt but no matching entry in namespace.

解决步骤

修复namenode hadoop 集群崩溃了. 导致namenode启动不了.删除 namenode主节点的metadata配置目录 rm -fr /data/hadoop-tmp/hadoop-hadoop/dfs/name

启动secondnamenode 使用start-all.sh命令启动secondnamenode,namenode的启动不了不管

从secondnamenode恢复使用命令: hadoop namenode -importCheckpoint 恢复过程中，发现数据文件有些已经损坏(因为dfs.replication=1),所以一直无法退出安全模式(safemode),一直报如下提示: The ratio of reported blocks 0.8866 has not reached the threshold 0.9990. Safe mode will be turned off automatically.

强制退出safemode hadoop dfsadmin -safemode leave 最后启动成功，查看hdfs网页报警告信息: WARNING : There are about 257 missing blocks. Please check the log or run fsck.

检查损坏的hdfs文件列表使用命令可以打印出损坏的文件列表: ./hadoop fsck / 没有冗余备份,只能删除损坏的文件,使用命令: ./hadoop fsck --delete 三.总结一定需要将你的secondnamenode及namenode分开在不同两台机器运行，增加namenode的容错性。以便在集群崩溃时可以从secondnamenode恢复数据.

weixin_39603622

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop集群硬盘损坏_如何hadoop集群崩溃恢复

崩溃原因搭建的是一个hadoop测试集群，所以将数据备份参数设置为dfs.replication=1,这样如果有一台datanode损坏的话，数据就会失去。但不幸的是，刚好就有一台机器由于负载过高，导致数据操坏。进而后面需要重启整个hadoop集群,重启后启动namenode启动不了。报如下错误: FSNamesystem initialization failed saveLeases foun...
复制链接

扫一扫