[Hadoop2.x] Hadoop运行一段时间后,stop-dfs等操作失效原因及解决方法

长时间运行Hadoop之后,如果运行 stop-dfs.sh(或stop-all.sh),会发现有以下类似错误:

Stopping namenodes on [localhost]
localhost: no namenode to stop
localhost: no datanode to stop
Stopping secondary namenodes [localhost]
localhost: no secondarynamenode to stop

这个时候访问hadoop依然有效,查看文件系统,通过50070端口依然能访问,start-all后再stop-all也没有任何效果,等于这个时候完全无法控制hadoop了。

出现这个问题的最常见原因是:hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。默认的进程号保存在/tmp下Linux默认会每隔一段时间(一般是一个月或者7天左右)去删除这个目录下的文件。因此删掉 hadoop-root-namenode.pid, hadoop-root-namenode.pid, hadoop-root-secondarynamenode.pid等pid文件后,namenode自然就找不到datanode上的这两个进程了。

另外还有两个原因可能引起这个问题:

  1. 环境变量 $HADOOP_PID_DIR 在你启动hadoop后改变了
  2. 用另外的用户身份执行 stop-dfs.sh 等命令

解决方法:

永久解决方法:修改 $HADOOP_HOME/etc/hadoop/hadoop-env.sh 文件,将 export HADOOP_PID_DIR=${HADOOP_PID_DIR}  的 ${HADOOP_PID_DIR} 路径修改为你自己指定目录,这样Hadoop会把相关pid进程文件保存在指定目录,避免被Linux自动删除。例如:

export HADOOP_PID_DIR=/usr/local/hadoop/pids/

发现问题后的解决方法:

这个时候通过脚本已经无法停止进程了,不过我们可以手工停止,通过 ps -ef | grep Java | grep hadoop找到hadoop的所有进程号强制杀掉(kill -9 进程号),然后再执行 start-dfs.sh, start-yarn.sh 等命令启动hadoop,以后 stop-dfs.sh 等命令就不会生效了。

转载于:https://my.oschina.net/jsan/blog/776089

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值