hadoop Unhealthy Nodes问题解决

最新推荐文章于 2023-07-20 08:22:45 发布

TURING.DT

最新推荐文章于 2023-07-20 08:22:45 发布

阅读量1.4k

点赞数

分类专栏： HADOOP

本文链接：https://blog.csdn.net/levy_cui/article/details/51143119

版权

HADOOP 专栏收录该内容

81 篇文章 3 订阅

订阅专栏

1、问题

前几天因为一个hive SQL的问题，导致其中很多节点机器的磁盘空间不足，job执行结束后，临时文件删除解决了空间不足的问题；
查看http://hostname:8088/cluster/nodes发现出现了一个unhealty节点，错误信息如下
1/4 local-dirs turned bad: /data1/hadoop/yarn/local;1/4 log-dirs turned bad: /data1/hadoop/yarn/log
虽然空间问题解决了，但是unhealthy节点确没有恢复；

2、原因

NodeManager默认会每两分钟检查本地磁盘（local-dirs），找出那些目录可以使用。注意如果判定这个磁盘不可用，则在重启NodeManager之前，就算磁盘好了，也不会把它变成可用。代码在LocalDirsHandlerService，DirectoryCollection。

当好磁盘数少于一定量时，会把这台机器变成unhealthy，将不会再给这台机器分配任务。

3、解决

重启nodemanager：

sbin/yarn-daemon.sh stop nodemanager

sbin/yarn-daemon.sh start nodemanager

重启resourcemanager(否则会导致修改的节点状态错乱)

sbin/yarn-daemon.sh stop resourcemanager

sbin/yarn-daemon.sh start resourcemanager

刷新页面,unhealthy的nodemanager已经消失。

或者
修改hadoop的core-site.xml配置文件中一下内容，即将hadoop.tmp.dir的目录配置到一个空间足够的目录下：

hadoop.tmp.dir
/home/hadoop_tmp

命令显示yarn各节点状态：
yarn node -list -all

参考：http://blog.csdn.net/lazythinker/article/details/47832117

TURING.DT

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop Unhealthy Nodes问题解决

1、问题前几天因为一个hive SQL的问题，导致其中很多节点机器的磁盘空间不足，job执行结束后，临时文件删除解决了空间不足的问题；查看http://hostname:8088/cluster/nodes发现出现了一个unhealty节点，错误信息如下1/4 local-dirs turned bad: /data1/hadoop/yarn/local;1/4 log-dirs
复制链接

扫一扫

专栏目录