HDFS小文件问题及解决方案

最新推荐文章于 2024-07-25 20:59:28 发布

Chuck_lee

最新推荐文章于 2024-07-25 20:59:28 发布

阅读量604

点赞数

分类专栏： Hadoop 文章标签： hdfs hadoop 大数据

本文链接：https://blog.csdn.net/lhzblog/article/details/38396459

版权

本文详细分析了HDFS中小文件带来的问题，包括内存占用和性能影响，并介绍了Hadoop自带的Hadoop Archive、Sequence file和CombineFileInputFormat等解决方案。此外，还讨论了针对WebGIS和Bluesky系统的小文件存储优化策略，提出了文件合并与索引预取机制以提升存取效率。

摘要由CSDN通过智能技术生成

1、概述

小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先，在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一个block，则namenode大约需要2G空间。如果存储1亿个文件，则namenode需要20G空间（见参考资料[1][4][5]）。这样namenode内存容量严重制约了集群的扩展。其次，访问大量小文件速度远远小于访问几个大文件。HDFS最初是为流式访问大文件开发的，如果访问大量小文件，需要不断的从一个datanode跳到另一个datanode，严重影响性能。最后，处理大量小文件速度远远小于处理同等大小的大文件的速度。每一个小文件要占用一个slot，而task启动将耗费大量时间甚至大部分时间都耗费在启动task和释放task上。

本文首先介绍了hadoop自带的解决小文件问题的方案（以工具的形式提供），包括Hadoop Archive，Sequence file和CombineFileInputFormat；然后介绍了两篇从系统层面解决HDFS小文件的论文，一篇是中科院计算所2009年发表的，用以解决HDFS上存储地理信息小文件的方案；另一篇是IBM于2009年发表的，用以解决HDFS上存储ppt小文件的方案。

2、 HDFS文件读写流程

在正式介绍HDFS小文件存储方案之前，我们先介绍一下当前HDFS上文件存取的基本流程。

(1) 读文件流程

1）client端发送读文件请求给namenode，如果文件不存在，返回错误信息，否则，将该文件对应的block及其所在datanode位置发送给client

2） client收到文件位置信息后，与不同namenode建立socket连接并行获取数据。

(2) 写文件流程

1） client端发送写文件