Hadoop SequenceFile存储格式入门

最新推荐文章于 2025-02-16 19:35:06 发布

鸭梨山大哎

最新推荐文章于 2025-02-16 19:35:06 发布

阅读量816

点赞数

分类专栏： hadoop 文章标签： SequenceFile hadoop 小文件

本文链接：https://blog.csdn.net/u010711495/article/details/113059056

版权

hadoop 专栏收录该内容

23 篇文章

订阅专栏

SequenceFile本质上是一种二进制文件格式，类似key-value存储，通过map/reducer的input/output format方式生成。文件内容由Header、Record/Block、SYNC标记组成，根据压缩的方式不同，组织结构也不同，主要分为Record组织模式和Block组织模式。

有什么用?

我们应该了解SequenceFile尝试解决哪些问题，然后SequenceFile如何帮助解决问题。

在 HDFS 中,SequenceFile 是 Hadoop 中小文件问题的解决方案之一。

小文件明显小于 HDFS 块大小 （128MB）。
HDFS 中的每个文件、目录和块都表示为对象，占用 150 字节。
1000 万个文件，将使用 NameNode 的大约 3 GB 内存。
十亿个文件是不可行的。

在MapReduce中

map任务通常一次处理输入块（使用默认的 FileInputFormat）。

文件数量越多，需要map任务的数量就更多，作业时间可能越慢。

小型文件方案

The files are pieces of a larger logical file.
The files are inherently small, for example, images.

这两种情况需要不同的解决方案。

对于第一个，编写一个程序来将小文件串联在一起。（见内森 · 马兹的帖子，关于一个叫做合并器的工具，它正是这样做的）
对于第二个容器，需要某种容器来对文件进行分组。

Hadoop 中的解决方案

HAR 文件

HAR（Hadoop档案馆）被引入，以减轻许多文件给namenode带来压力的问题。
HARs 可能最好纯粹用于存档目的。

SequenceFile

SequenceFile 的概念是将每个小文件放在一个更大的单个文件中。
例如，假设有 10，000 个 100KB 文件，那么我们可以编写一个程序，将它们放入如下所示的单个序列文件中，其中您可以使用文件名作为键，内容作为值。

在这里插入图片描述
一些好处：
NameNode上需要的内存数量较少。继续以10,000个100KB文件为例，
在使用SequenceFile之前，NameNode中有10,000个对象占用约4.5MB的RAM。
在使用带有8个HDFS块的1GB SequenceFile，SequenceFile之后，这些对象在NameNode中占据约3.6KB的RAM。

SequenceFile是可拆分的，因此适用于MapReduce。
SequenceFile支持压缩。

受支持的压缩，文件结构取决于压缩类型。

第一种是不压缩
第二种是record形式的压缩
在这里插入图片描述
第三种是block形式的压缩

等待直到数据达到块大小以进行压缩。
Block压缩比Record压缩提供更好的压缩率。
使用SequenceFile时，通常首选Block压缩。
这里的Block与HDFS或文件系统Block无关。