先前在hadoop集群跑job时出现任务执行到30%停止,且机器发热严重,一度以为机器问题,而后在集群提交作业时,出现如下问题,namenode节点资源不足,请释放资源或增加资源。
705013485_0008. Name node is in safe mode.
Resources are low on NN. Please add or free up more resources then turn off safe mode manually. NOTE: If you turn off safe mode before adding resources, the NN will immediately return to safe mode. Use "hdfs dfsadmin -safemode leave" to turn safe mode off.
看了网上很多贴子,只是说怎么查看存储空间占用情况,未明确如何查找原因及解决,特发此贴
-
问题产生的原因
可以使用df -h命令查看下当前节点下的存储情况,如下可见,以用91%。结合先前的job运算失败,考虑到应该是产生了大量的文件存储在节点上,导致空间不足,所以就需要到运行任务的data下去查看文件信息。我是使用mapreduce运行的程序,因此到hadoop的data数据中去查看文件大小。
文件系统 容量 已用 可用 已用% 挂载点
/dev/sda2 47G 40G 4.0G 91% /
devtmpfs 3.9G 0 3.9G 0% /dev
tmpfs