集群有段时间没人用了,重新启动时遇到无法连接到hdfs问题
jps查看命令之后发现是namenode没有启动起来,查看hdfs的日志:
找到问题的原因了,在namenode启动过程中重放hdfs的edit log时爆掉了GC,Google了一下,发现可以修改GC参数:
export HADOOP_OPTS="-XX:-UseGCOverheadLimit
重启启动namenode成功(中间恢复过程很慢很慢,跑到第二天早上,恢复失败。。。再次启动namenode又恢复成功了。。。还没明白原因。。)