yarn集群HDFS datanode无法启动问题排查

一、问题场景

hdfs无法访问,通过jps命令查看进程,发现namenode启动成功,但是所有datanode都没有启动,重启集群(start-dfs.sh)后仍然一样

在这里插入图片描述

二、原因分析

先看下启动的日志有无报错。打开Hadoop的日志目录

cd $HADOOP_HOME/logs

按时间排序找出最新的datanode日志文件
在这里插入图片描述
查看日志文件末尾的100行

cat hadoop-root-datanode-cute-serval.log | tail -n 100

发现报错:datanode和namenode的clusterID不一致,最终导致了datanode无法正常启动

clusterID 是在 HDFS 集群的第一次格式化时生成的唯一标识符,用于确保 NameNode 和所有的 DataNode 属于同一个 HDFS 集群。如果ID 不匹配,DataNode 将无法加入集群。

在这里插入图片描述
Hadoop3.2中,NameNode和DataNode的clusterID配置文件在hdfs的数据目录的dfs目录下,在hdfs-site.xml文件中找到hdfs的数据目录,然后打开目录下的dfs目录:

在这里插入图片描述

NameNode的clusterID位置:

在这里插入图片描述

DataNode的clusterID位置:

在这里插入图片描述

存在不一致

三、解决方案

方案一:将无法启动的datanode节点的clusterID手动改为与namenode一致,然后再重启datanode

方案二:完全重新格式化集群。如果集群还在初期部署阶段,可以考虑完全重新格式化整个集群。这将重置所有的 clusterID,但会导致丢失所有数据。要重新格式化,首先停止所有 HDFS 服务,然后在 NameNode 上运行 hdfs namenode -format,接着手动清除所有 DataNode 上的数据目录,最后重新启动整个集群。

  • 13
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值