org.apache.hadoop.ipc.RPC: Server at master/ip:port not available yet

最新推荐文章于 2024-01-09 12:50:21 发布

lileizhang

最新推荐文章于 2024-01-09 12:50:21 发布

阅读量776

点赞数

分类专栏： hadoop 文章标签： hadoop

hadoop 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

转自：http://blog.sina.com.cn/s/blog_893ee27f0100zoh7.html

很多情况下遇到类似问题

hadoop datanode 问题 INFO org.apache.hadoop.ipc.RPC: Server at /:9000 not available yet, Zzzzz..

本以为这个样子就大功告成了，

然后我用bin/hadoop dfsadmin -report 查看hadoop的情况，现实的信息如下;
Configured Capacity: 0(0KB)
Present Capacity: 0(0KB)
DFS Remaining: 0(0KB)
DFS Used: 0(0KB)
DSF Used%:?%
Under Replicated blocks:0
Blocks with corrupt replicas: 0
Missing blocks: 0
----------------------------------------------------
Databodes available: 0(0 total, 0 dead)

总是出现datanode连接不上namenode的问题。

在datanode也就是slave上面查看datanode的日志时，的错误为：

2011-10-26 17:57:05,231 INFO org.apache.hadoop.ipc.RPC: Server at /192.168.0.100:9000 not available yet, Zzzzz...
2011-10-26 17:57:07,235 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: /192.168.0.100:9000. Already tried 0 time(s).
2011-10-26 17:57:08,236 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: /192.168.0.100:9000. Already tried 1 time(s).
2011-10-26 17:57:09,237 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: /192.168.0.100:9000. Already tried 2 time(s).
2011-10-26 17:57:10,239 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: /192.168.0.100:9000. Already tried 3 time(s).
2011-10-26 17:57:11,240 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: /192.168.0.100:9000. Already tried 4 time(s).
2011-10-26 17:57:12,241 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: /192.168.0.100:9000. Already tried 5 time(s).

也是datanode连接不上namenode。

而在namenode上面显示：

2011-10-26 14:18:49,686 INFO org.apache.hadoop.ipc.Server: IPC Server handler 1 on 9000, call addBlock(/root/hadoop/tmp/mapred/system/jobtracker.info, DFSClient_-1928560478, null, null) from 127.0.0.1:32817: error: java.io.IOException: File /root/hadoop/tmp/mapred/system/jobtracker.info could only be replicated to 0 nodes, instead of 1
java.io.IOException: File /root/hadoop/tmp/mapred/system/jobtracker.info could only be replicated to 0 nodes, instead of 1
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1448)
at org.apache.hadoop.hdfs.server.namenode.NameNode.addBlock(NameNode.java:690)
at sun.reflect.NativeMethodAccessorImpl .invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl .invoke(NativeMethodAccessorImpl .java:39)
at sun.reflect.DelegatingMethodAccessor Impl.invoke(DelegatingMethodAccessor Impl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.ipc.WritableRpcEngine$Server.call(WritableRpcEngine.java:342)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1350)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1346)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:742)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1344)

也就是说namenode也在试图将jobtracker.info存入hdfs文件系统中，而又存不进去。然后查了一下网上的说法，之后发现原来是/etc/hosts中的ip映射的问题。由于在master中/etc/hosts的配置为：

127.0.0.1 master

127.0.1.1 server.ubuntu-domain server

192.168.0.100 server

192.168.0.111 hdfs1因此可能存在一个优先匹配第一个碰见的问题，之后是将前两行注释掉(后来又将第一行改为了127.0.0.1 localhost)。然后在进行正常的hadoop format和启动，就可以连接上了。

最后可能还有时候出现错误datanode自动关闭的问题。解决这个问题的方法是删除所有masters，slaves中的tmp文件。然后format，重启就可以了。