启动hadoop的时候,通过jps查看进程,发现namenode RM和Secondary NameNode都有,但datanode没有启动,datanode的启动日志如下
划线部分如下:
2018-06-04 18:26:58,317 WARN org.apache.hadoop.hdfs.server.common.Storage: Failed to add storage directory [DISK]file:/home/tobin/framework/hadoop/tmp/dfs/data/
java.io.IOException: Incompatible clusterIDs in /home/tobin/framework/hadoop/tmp/dfs/data: namenode clusterID = CID-8534d33a-ef46-4294-8c5b-1f267ca07d94; datanode clusterID = CID-233ea27a-422c-4b0a-b96f-7ef5c59a43a7
2018-06-04 18:26:58,320 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool ID needed, but service not yet registered with NN, trace:
java.lang.Exception
查阅资料发现,原因是多次format Namenode导致的Namenode和DataNode的ID不一致导致的,具体原因如下:
该问题因为多次对namenode进行format,每一次format主节点NameNode产生新的clusterID、namespaceID,于是导致主节点的clusterID、namespaceID与各个子节点DataNode不一致。当format过后再启动hadoop,hadoop尝试创建新的current目录,但是由于已存在current目录,导致创建失败,最终引起DataNode节点的DataNode进程启动失败,从而引起hadoop集群完全启动失败。因此可以通过直接删除数据节点DataNode的current文件夹,进行解决该问题。
解决办法:
删除tmp/dfs/data下的current文件夹,然后重新启动hadoop即可