问题描述:部署好Hadoop环境后,在slave机上运行jps看不到Datanode的进程。(查看DataNode上的/logs下面的日志,发现显示DataNode和NameNode的clusterID不同,clusterID可以在/current/VERSION里面查看,有时候master和slave上该文件的位置不一样)
解决方式:删除slave机上hdfs-site.xml中配置的Datanode文件夹中的所有内容(dfs.data.dir参数)(是一个current文件),再初始化Namenode,运行
- 1
重新初始化。
原因:多次初始化了Namenode,但master没有清空所有Datanode文件夹中的初始化数据,使得两个文件夹中生成的ID不一致,删除Datanode文件夹中的初始化数据后再初始化Namenode就会生效了。(通常是/dfs/data下的/current文件)
再次启动Hadoop,使用jps就能看到Datanode进程了。
通常,master上的namenode不要经常格式化,启动hadoop用start-all.sh(如果master和slave直接设置了ssh免密码通信,只需要在master上启动服务就行)
当发现NameNode无法启动,DataNode可以查看到,读取logs显示:java.io.IOException: There appears to be a gap in the edit log. We expected txid 1, but got txid 99这样的出错信息,是因为NameNode元数据损坏,需要恢复。解决方法如下:
master上修复NameNode:hadoop namenode -recover(一路选择c)
关闭所有服务:stop-all.sh
重启服务:start-all.sh
再查看成功。
参考:http://blog.csdn.net/baidu_27280587/article/details/53393652