HDFS中的部分Datanode存在大量没有删除的Block磁盘被占满

最新推荐文章于 2022-03-15 12:28:24 发布

leongfans

最新推荐文章于 2022-03-15 12:28:24 发布

阅读量1.7k

点赞数 1

在Hadoop HDFS集群中遇到部分Datanode磁盘空间被大量未删除Block占据的问题，导致磁盘空间不足。通过fsck检查、分析DataNode日志和源码发现，NameNode仅向特定节点发送删除指令，原因是`dfs.replication.interval`配置过长，导致数据块删除不均衡。修复方法是将该配置调整回默认值，以确保所有节点能正常处理删除任务。此问题在Hadoop 1.0.4后的版本已得到修复。

摘要由CSDN通过智能技术生成

数据中心的HBase（cdh3u3）集群已经稳定运行了差不多半年多了。由于前期规划的不合理，最近给所有的数据节点分批重装了一下系统，最后发现经常有几个节点出现磁盘空间不足的异常。查看文件系统，发现原来大约占用6T空间的HDFS已经占用了差不多15+T的数据

1、先用fsck进行文件系统检查，发现大约占用2T的空间（*3约等于6T，数据重量差不多就是这么多），并没有数据块有过多的备份。

2、查看对应datanode的数据目录，发现确实有很多的数据块（量非常大，都超过了实际hdfs中的数据块总量）

这时候，猜测应该是有很多需要被删除的数据块没有被删除。猜测可能是NameNode和DataNode之间的通讯出现异常导致。于是查看NameNode和DataNode日志，发现并没有任何异常信息，只是发现NameNode定时对其中的三台机器发出了删除指令

BLOCK* ask 192.168.200.8:50010 to delete blk_7080908721303033545_7530145
BLOCK* ask 192.168.200.9:50010 to delete blk_-6550808355677895247_7465333
BLOCK* ask 192.168.200.7:50010 to delete blk_2415291932316966347_7460687

其他节点则没有收到过相应的删除数据块的指令。因为所有节点的心跳一直没有问题，日志中也没有异常信息，一时想不到解决这个问题的办法。于是重启datanode，仍然无法删除过期的数据块。重启namenode，过了一段时间，发现数据量恢复正常了。

可是

最低0.47元/天解锁文章

leongfans

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
HDFS中的部分Datanode存在大量没有删除的Block磁盘被占满

数据中心的HBase（cdh3u3）集群已经稳定运行了差不多半年多了。由于前期规划的不合理，最近给所有的数据节点分批重装了一下系统，最后发现经常有几个节点出现磁盘空间不足的异常。查看文件系统，发现原来大约占用6T空间的HDFS已经占用了差不多15+T的数据1、先用fsck进行文件系统检查，发现大约占用2T的空间（*3约等于6T，数据重量差不多就是这么多），并没有数据块有过多的备份。2、查看...
复制链接

扫一扫