使用 HDFS 保存大量小文件

最新推荐文章于 2024-06-14 09:31:24 发布

hdngbj

最新推荐文章于 2024-06-14 09:31:24 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/hdngbj/article/details/9202739

版权

本文讨论了使用HDFS保存大量小文件的缺点，包括NameNode内存压力和MapReduce效率低下。为解决这些问题，文章介绍了Apache Avro作为数据序列化系统，通过将小文件打包成大文件来优化存储。提供了Java代码示例，展示如何将小文件写入Avro格式并从Avro文件中读取内容。

摘要由CSDN通过智能技术生成

使用使用使用使用 HDFS 保存大量小文件的缺点：
1.Hadoop NameNode 在内存中保存所有文件的“元信息”数据。据统计，每一个文件需要消耗 NameNode600 字节内存。如果需要保存大量的小文件会对NameNode 造成极大的压力。
2.如果采用 Hadoop MapReduce 进行小文件的处理，那么 Mapper 的个数就会跟小文件的个数成线性相关（备注：FileInputFormat 默认只对大于 HDFS Block Size的文件进行划分)。如果小文件特别多，MapReduce 就会在消耗大量的时间进行Map 进程的创建和销毁。
为了解决大量小文件带来的问题，我们可以将很多小文件打包，组装成一个大文件。 Apache Avro 是语言独立的数据序列化系统。 Avro 在概念上分为两部分：模式（Schema）和数据（一般为二进制数据)。Schema 一般采用 Json 格式进行描述。Avro 同时定义了一些自己的数据类型如表所示：

Avro基础数据类型