HDFS小文件的危害及补救措施

最新推荐文章于 2024-06-14 09:31:24 发布

Charles Gao

最新推荐文章于 2024-06-14 09:31:24 发布

阅读量794

点赞数

分类专栏： Hadoop 文章标签： hadoop hdfs

本文链接：https://blog.csdn.net/CharlesCFA/article/details/114565999

版权

Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、block块
举例：
block块官方设置的是64m,现在多数用的是128m(Hadoop 2.0x)

举例：
一个文件130M % 128M=1…2m
结果是1个块128m，1个块2m
一碗水130ml 一个瓶子规格容量128ml
只能2个瓶子：第1个装满128ml 第二个装不满，实为2ml

二、小文件的危害
HDFS 适应场景: 大文件存储，小文件是致命的

举例:
接上个例子130m的文件
10m的10个文件 10块
30m的1个文件 1块
共有11个文件： 11块
系统维护一般轻量级会比较好，本身可以2个块去维护，但现在需要11个块维护 ，如果数量级比较大有可能会把nn撑爆

小文件危害

先说对小文件的定义，一般来说小于等于30M的文件，都叫小文件。在HDFS中，通常NN维护一个文件的名称，目录结构等大约是250字节。现实中，HDFS的小文件如果不做任何操作增长会很快，现在假设NN节点的内存为4G，差不多42亿字节，现在在HDFS上有一亿个小文件，那么需要250乘一亿大约是250亿字节，这样会将NN撑爆。小文件到达一定数目，就会将NN节点撑爆。就算NN能够存储，对于hive，spark计算时，小文件意味着需要更多的task和资源，同样也会将节点弄挂掉。