hadoop集群故障排除(定期更新)

本文详述了两个常见的Hadoop集群故障及其解决方法。故障一涉及DataNode进程启动失败,原因是datanode和namenode的clusterID不一致,解决办法是同步它们的clusterID。故障二是在集群上运行MapReduce作业失败,原因是节点时间不一致,通过同步系统时间解决了问题。
摘要由CSDN通过智能技术生成

故障一:某个datanode节点无法启动


我是以用户名centos安装和搭建了一个测试用的hadoop集群环境,也配置好了有关的权限,所有者、所属组都配成centos:centos

【故障现象】

名称节点的3个进程都起来了,但是其中一个数据节点的DataNode进程没启动,就是说在该数据节点上通过jps没查到有关进程。


【排查过程】

登录此故障节点(主机名为s203)的日志存放目录$ cd $HADOOP_HOME/logs/

查看日志hadoop-centos-datanode-s203.log,发现有一行FATAL级别的错误:

FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned)

还有一行:

java.io.IOException: Incompatible clusterIDs in /tmp/hadoop-centos/dfs/data: namenode clusterID = CID-8ba03cf7-a71d-4439-8818-c0a65f47e7aa; datanode clusterID = CID-7d9b5e26-d96e-4596-b42e-5810aaacedf8

从字面上来看,报错信息大意是datanode所属的集群IDnamenodeID不一致,。这就导致了该data node无法加入到同一个集群里面去(每个hadoop集群的ID不能有两个),所以此数据节点启动失败。


【解决办法】

有两个,一个是删除集群所有主机信息后,格式化名称节点后再启动集群。这个办法会丢失我之前已有的数据,这不是我想要的。

所以我这里采用第二种办法:把无法启动的数据节点所属的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值