之前集群都已经配置好,可以正常使用,昨晚关闭了hadoop集群,今天再打开,发现刚开始启动不了NameNode,导致 master:50070 网页打不开,
执行 ./sbin/stop-all.sh
关闭所以进程,然后再重启 dfs : ./sbin/start-dfs.sh
,发现 DataNode又启动不了, 查询log文件也没看出问题所在。只有按照下面步骤初始化hdfs(里面有重要的文件请慎重!!):
- 先执行stop-all.sh暂停所有服务
- 将所有salver节点上的tmp , logs 文件夹删除 , 然后重新建立tmp , logs 文件夹
- 将所有salver节点上的/hadoop路径/conf 下的 core-site.xml 删除,将 master 节点的 core-site.xml 文件拷贝过来,到各个salver节点
scp /hadoop路径/conf/core-site.xml hadoop@slaver_IP:/hadoop路径/conf/
- 重新格式化:
hdfs namenode -format
- 启动:start-all.sh
注:这是我碰到的情况,不见得是你遇到的问题,基本上要确定几个方面:
- 检查各个xml文件是否配置正确
- java环境变量配置是否正确
- ssh是否无密码互通