现象 使用k8s查询节点的pod情况,显示tdh03没有hdfs-datanode服务 进入tdh03节点 使用docker ps 查询hdfs-datanode 容器还在running,没有被删除 排错 查看对应docker进程,nfs卡住了。容器的进程 已经是D状态了。 查看机器日志:dmesg -T查看NAS挂载有断开过 问题分析 删除了Pod 没有重建,应该就和残留的container 清理不掉有关,NAS之前有断开的情况,挂载问题是客户的没办法直接解决,需要重启服务器解决问题。