HDFS自定义小文件分析功能

最新推荐文章于 2025-02-26 09:01:35 发布

Android路上的人

最新推荐文章于 2025-02-26 09:01:35 发布

阅读量6k

点赞数 2

分类专栏： Hadoop HDFS 文章标签： hdfs 小文件

本文链接：https://blog.csdn.net/androidlushangderen/article/details/52091620

版权

本文探讨了HDFS中的小文件问题及其对NameNode的影响，介绍了一个自定义的小文件分析功能，旨在减轻NameNode的负载。通过改造HDFS的FileDistribution处理器，实现了离线分析fsimage文件，统计小文件数量，并对处理过程进行优化，增强了输出结果的可读性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

看完本文的标题,可能有读者会心想:HDFS为什么会与小文件分析挂钩呢?Hadoop的设计初衷不是偏向于存储单位体量规模较大的文件的吗?设计这样的功能有什么实际用途呢?这背后其实是有很多内容可以讲的,说起HDFS中的小文件,我们并不是关心它到底有多小,而是在于它太多.而文件太多的原因往往在于其外部程序写入单个文件的量太小导致,在同样规模待写入数据量的前提下,单位文件过小显然会造成大批量的小文件产生.可能很多人会不以为然,认为小文件多了,但是它的总体数据量还是维持平稳,所以对HDFS影响就不大了.在这个分析过程中,我们往往会忽视小文件带来的间接影响:元数据规模的增多.这直接将会加重NameNode的负载.因为这会使得NameNode需要跟踪这些块并且要将这些文件块的元信息存放在自己的内存中.所以在这里引出了本文的主题:通过改造HDFS小文件分析功能,来处理集群中的小文件,然后达到最终减轻NameNode负载的目标.

背景知识

在讲解自定义小文件分析功能之前,我们有必要对现有HDFS的一些相关内容进行了解,主要包括以下4点:

NameNode的元数据存放
NameNode内存过大的影响
现有NameNode内存过大解决方案
HDFS现有文件分析功能

NameNode的元数据存放

很多Hadoop的使用者在日常使用集群的时候往往对写入的文件缺乏管理,造成很多的小文件,有的甚至就是十几字节一个文件.这使HDFS完全被用成了小文件系统,从而难以发挥它本身的优势.这些庞大的元数据信息,我们如何能够查看到呢,近一步的说,我们如何能够查看到这些元数据信息占到NameNode内存的比例值呢?这里教给大家一个简单的方法,直接是java提供的jmap命令,命令如下:

jmap -histo:live  <进程ID> | less //堆中活动的对象以及大小

此处进程ID填入NameNode进程ID即可.(大家如果要试的话,建议在Standby NameNode上执行,因为如果NameNode内存过大,jmap一次的时间会比较长,对其进程服务本身会造成影响).下面是我在测试集群上的执行结果:

num     #instances         #bytes  class name
----------------------------------------------
   1:         xxxx           xxxx  org.apache.hadoop.hdfs.server.namenode.INodeFile
   2:         xxxx           xxxx  [Ljava.lang.Object;
   3:         xxxx           xxxx  org.apache.hadoop.hdfs.server.blockmanagement.BlockInfoContiguous
   4:         xxxx           xxxx  [B
   5:         xxxx           xxxx  [Lorg.apache.hadoop.hdfs.server.blockmanagement.BlockInfoContiguous;
   6:         xxxx           xxxx  [Lorg.apache.hadoop.util.LightWeightGSet$LinkedElement;
   7:         xxxx           xxxx  org.apache.hadoop.hdfs.server.namenode.INodeDirectory
   8:         xxxx           xxxx  java.util.ArrayList
   9:         xxxx           xxxx  org.apache.hadoop.hdfs.protocol.HdfsFileStatus
  10:         xxxx           xxxx  org.apache.hadoop.ipc.RetryCache$CacheEntryWithPayload
  11:         xxxx           xxxx  <constMethodKlass>

我们主要关注上面类对象的排序,具体的值大家可以自己在集群中做测试,基本是INodeFile是最多的,如果你有千万级别的文件在集群中,那么这个对象的instances值也将会达到千万级别.紧着着的是BlockInfoContiguous,这个对象类也非常的多,因为它要保存相邻副本块的位置等信息,具体的说就是它的内部会保存当前副本块的上一副本和下一副本的详细信息.当然我们在这里还看到了INodeDirectory对象,这个对应的就是目录的元信息了.最后在这里,我想纠正很多人可能对HDFS内存元数据的一个误解: