【异常】Hadoop分布式集群之hadoop集群故障

最新推荐文章于 2023-04-16 15:28:26 发布

ZoeYen_

最新推荐文章于 2023-04-16 15:28:26 发布

阅读量504

点赞数

文章标签： hadoop集群 namenode

本文链接：https://blog.csdn.net/ZoeYen_/article/details/78555236

版权

hadoop 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

问题一：

一键停止hdfs相关进程，主节点提示 no namenode to stop。

这里写图片描述

懵。。。。。
参考了一些资料，得出的结论是stop-dfs.sh找不到主节点的namenode的PID。pid是啥？就是输入jps命令后显示的进程号。各个进程的pid都默认保存在/tmp 目录下。
这里写图片描述

具体参考hadoop-daemon.sh中的信息。

这里写图片描述

大意就是找不到pid就打印 no namenode/datanode.. to stop。

ll /tmp
查看该目录下的文件。没有找到namenode对应的pid。

既然hadoop不知道关闭哪些进程，只能手动关闭了。
输入命令kill -9 进程号
再重启hadoop，查看/tmp目录，有对应的pid文件。

这里写图片描述

你以为这里就完了，太天真了。

~~~~~~我是分割线~~~~~~~~~~~~~分割线~~~~~~~~~~~~
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

各节点进程全部启动完毕，hdfs上传文件也执行成功，打开浏览器用 web UI 访问主节点的namenode情况。

这里写图片描述

？？？啥情况？

打开日志文件
这里写图片描述

50070端口被占用
lsof -i:50070
占用namenode的进程号就是输入jps指令后显示的进程号。查看/tmp目录下的namenode的pid文件，发现两个地方的pid不一致。

这里写图片描述

搜索了很多资料没有找到类似的情况，即使修改了pid文件的内容，执行在sbin/stop-dfs.sh的时候，仍然提醒no namenode to stop。

在各种尝试下，只想出了一种笨拙的方法。

1.sbin/stop-dfs.sh   //一键停止hdfs相关进程
2.kill -9 xxxx       //执行jps命令后的namenode进程号
3.rm -rf /home/hadoop/data/tmp/dfs/data //移除data目录下的datanode的数据文件
4.sbin/start-dfs.sh  //重新一键启动hdfs相关进程
5.cat /tmp/hadoop-hadoop-namenode.pid  //查看pid，与jps下的一致