hadoop集群搭建datenode为0问题的解决

最新推荐文章于 2023-11-02 16:04:52 发布

weixin_34220623

最新推荐文章于 2023-11-02 16:04:52 发布

阅读量196

点赞数

文章标签：大数据 java

搭建了一个小的实验集群，一共4台机器，一台namenode，三台datenode。运行start-all，发如今namenode上没有报不论什么错误，可是启动后直接显示datenode数量为0。

到datenode上查看日志。发现有这么个错误： ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs。百度后发现出现这个问题通常是datenode中的数据文件出了问题。这时我想到自己的几台datenode是直接由namenode中的系统复制过来，而我并没有设置 hadoop.tmp.dir參数，也就是默认存储在/tmp文件夹中，这就跟直接namenode单机时存储的暂时文件冲突了才造成了以上问题。解决方法也非常easy。将tmp文件夹中的过期暂时文件清楚，或者另外设置 hadoop.tmp.dir參数指定新的暂时文件夹。

这里我选择了后者。由于我发现/tmp文件夹下的文件常常会受到损坏。

攻克了上面这个错误后，datenode最终有一个了，可是我有三台datenode。应该显示3个datenode啊！接着看另外两台的日志，发现里面有大量无法连接到namenode的错误。由于我设置namenode时用的是主机名而非ip地址。看来应该是由于hosts文件设置错误。打开/etc/hosts文件，果然namenode的主机名相应地址误设为了127.0.0.1，改过来之后，再次又一次格式化hdfs，start-all。最终能看到3个datenode了。真不easy。

总结一下，假设namenode可以成功启动，可是datenode显示为0，那么问题通常是出在datenode上。

这时候我们可曾经往datenode机器上查看/var/log/hadoop下的日志文件，里边应该会有一些错误提示，然后依据错误提示就能大体知道问题的所在。可能发生的问题无外乎下边几种：

1、datenode机器上的hadoop后台无法启动。出现这个问题的解决办法非常多样，比方笔者这次就遇上了tmp目录中存在失效文件的问题。

2、datenode无法与namenode通信。出现这样的问题一般都是网络设置有误，细致排查网络设置后应该就能找到解决的方法。假设datenode机器上的问题排除，那么出现这个错误也有可能是由于namenode上设置的监听地址有误造成的，能够在namenode上执行netstat命令看一看hadoop后台有没有在预期地址：port上监听。

weixin_34220623

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop集群搭建datenode为0问题的解决

搭建了一个小的实验集群，一共4台机器，一台namenode，三台datenode。运行start-all，发如今namenode上没有报不论什么错误，可是启动后直接显示datenode数量为0。到datenode上查看日志。发现有这么个错误： ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IO...
复制链接

扫一扫