Hadoop的磁盘写入策略引发的问题

最新推荐文章于 2024-06-20 10:55:19 发布

ping_hu

最新推荐文章于 2024-06-20 10:55:19 发布

阅读量2.1k

点赞数 1

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/ping_hu/article/details/78233854

版权

本文探讨了Hadoop集群中，DataNode磁盘使用不均匀的问题，尤其是2T磁盘先被写满而4T磁盘利用率低的现象。分析了Hadoop的循环选取和可用空间两种写入策略的源码，指出hdfs3.0的diskbalancer虽能均衡数据，但因版本问题无法采用。解决方案包括数据清理、压缩和移盘。总结了问题原因，加强了对Hadoop磁盘监控和异常处理的理解。

摘要由CSDN通过智能技术生成

DataNode挂载的磁盘或者DataNode节点挂载多个磁盘，如果存在一些磁盘大小不一样，数据在落盘时就可能会出现磁盘使用率不均匀的情况，容量较小的盘容易被写满，而容量大的盘还剩很多空间。磁盘写满后，影响Hadoop集群的正常工作。国庆第一天，线上集群就报出了JournalNode挂掉的异常情况，经查是由于2T的磁盘被写满，JournalNode无法再写入数据。当时采取了临时的措施，删掉HBase和Hive中不用，占大量空间的表。磁盘使用率下降一部分后，重新启动JournalNode。

集群中每个DataNode都挂载了两个硬盘，分别为2T和4T的，2T基本都被写满，而4T的才50%多。是什么造成了这种数据落盘时的不均匀情况？本主要文调研了Hadoop的数据两种写入磁盘的策略，并分析了两种策略的主要源码实现，最后总结解决此次异常的经验。