HDFS处理小文件问题以及如何解决

最新推荐文章于 2024-05-03 22:20:35 发布

Charles Gao

最新推荐文章于 2024-05-03 22:20:35 发布

阅读量683

点赞数 1

分类专栏： Hadoop Hadoop MapReduce Java 文章标签： hadoop 大数据 hdfs

本文链接：https://blog.csdn.net/CharlesCFA/article/details/115407398

版权

Hadoop MapReduce 同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

Java

9 篇文章 0 订阅

订阅专栏

Hadoop

7 篇文章 0 订阅

订阅专栏

合并小文件除了运用CombineInputTextFormat的方法，其实还有别的方法，现在总结一下:

1.最简单的是避免产生小文件，在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS。

2.Hadoop Archive
为了缓解大量小文件带给namenode内存的压力，Hadoop 0.18.0引入了Hadoop Archives(HAR files)，其本质就是在HDFS之上构建一个分层文件系统。通过执行hadoop archive 命令就可以创建一个HAR文件。在命令行下，用户可使用一个以har://开头的URL就可以访问HAR文件中的小文件。使用HAR files可以减少HDFS中的文件数量。

下图为HAR文件的文件结构，可以看出来访问一个指定的小文件需要访问两层索引文件才能获取小文件在HAR文件中的存储位置，因此，访问一个HAR文件的效率可能会比直接访问HDFS文件要低。对于一个mapreduce任务来说，如果使用HAR文件作为其输入，仍旧是其中每个小文件对应一个map task，效率低下。所以，HAR files最好是用于文件归档。
在这里插入图片描述

3.Sequence File
除了HAR files，另一种可选是SequenceFile，其核心是以文件名为key，文件内容为value组织小文件。10000个100KBde 小文件，可以编写程序将这些文件放到一个SequenceFile文件，然后就以数据流的方式处理这些文件，也可以使用MapReduce进行处理。一个SequenceFile是可分割的，所以MapReduce可将文件切分成块，每一块独立操作。不像HAR，SequenceFile支持压缩。在大多数情况下，以block为单位进行压缩是最好的选择，因为一个block包含多条记录，压缩作用在block智商，比reduce压缩方式（一条一条记录进行压缩）的压缩比高。

把已有的数据转存为SequenceFile比较慢。比起先写小文件，再将小文件写入SequenceFile，一个更好的选择是直接将数据写入一个SequenceFile文件，省去小文件作为中间媒介。

下图为SequenceFile的文件结构。HAR files可以列出所有keys，但是SequenceFile是做不到的，因此，在访问时，只能从文件头顺序访问
在这里插入图片描述

想对自己说: Under no circumstances shall you not give up hopes on yourself。继续努力吧，加油！

Charles Gao

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS处理小文件问题以及如何解决

哎，鹅厂面试问到这个题一时间没想出很好的答案，就说了运用CombineInputTextFormat的方法，其实还有别的方法，现在总结一下，纪念一下自己惨痛的经历1.最简单的是避免产生小文件，在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS。2.Hadoop Archive为了缓解大量小文件带给namenode内存的压力，Hadoop 0.18.0引入了Hadoop Archives(HAR files)，其本质就是在HDFS之上构建一个分层文件系统。通过执行hadoop archive
复制链接

扫一扫