Hadoop 大量小文件问题及解决方案

@SmartSi

已于 2022-11-05 23:31:52 修改

阅读量2.9w

点赞数 6

分类专栏： Hadoop 文章标签： Hadoop 小文件问题 HDFS

于 2016-12-25 15:34:09 首次发布

原文链接：http://blog.cloudera.com/blog/2009/02/the-small-files-problem/

版权

Hadoop 专栏收录该内容

41 篇文章 8 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细探讨了Hadoop中的小文件问题，包括HDFS和MapReduce层面的影响，产生的原因以及两种主要的解决方案：Hadoop Archives (HAR) 和 SequenceFile。建议根据数据访问模式选择合适的存储方式，如使用SequenceFile以提高处理效率。

摘要由CSDN通过智能技术生成

1. HDFS上的小文件问题

小文件是指文件大小明显小于HDFS上块（block）大小（默认64MB）的文件。如果存储小文件，必定会有大量这样的小文件，否则你也不会使用Hadoop（If you’re storing small files, then you probably have lots of them (otherwise you wouldn’t turn to Hadoop)），这样的文件给hadoop的扩展性和性能带来严重问题。当一个文件的大小小于HDFS的块大小（默认64MB），就将认定为小文件否则就是大文件。为了检测输入文件的大小，可以浏览Hadoop DFS 主页 http://machinename:50070/dfshealth.jsp ，并点击Browse filesystem（浏览文件系统）。

首先，在HDFS中，任何一个文件，目录或者block在NameNode节点的内存中均以一个对象表示（元数据）（Every file, directory and block in HDFS is represented as an object in the namenode’s memory），而这受到NameNode物理内存容量的限制。每个元数据对象约占150byte，所以如果有1千万个小文件，每个文件占用一个block&#x