hadoop元数据合并过程_基于Hadoop的海量小文件合并的研究与设计

苏慕凉

于 2021-01-13 09:30:45 发布

阅读量139

点赞数

文章标签： hadoop元数据合并过程

本文链接：https://blog.csdn.net/weixin_34644635/article/details/112880978

版权

基于

Hadoop

的海量小文件合并的研究与设计

彭建烽，魏文国，郑东炜

【摘

要】

摘要：基于

Hadoop

海量小文件合并的策略研究，一方面为了减轻

NameNode

的元数据量，利用

Eclipse

开发工具实现了

Har

、

HBase

、

SequenceFile

三种主流合并方案对海量小文件的合并；另一方面分析这三种主

流合并方案在不同场景下性能以及应用方面的优劣，进而为海量小文件在

Hadoop

上的存储提供一些有价值的参考

【期刊名称】

广东技术师范学院学报

(

社会科学版

)

【年

(

卷

期】

2016(037)011

【总页数】

【关键词】

Hadoop

；

HDFS

；小文件；元数据；

Har

；

HBase

；

SequenceFile

引言

Hadoop

分布式数据存储和处理框架凭借其高效、可靠、高容错等优点，渐渐

成为了炙手可热的大数据存储和处理工具

.Hadoop

分布式文件系统(

HDFS

)

是

Hadoop

的核心部分，它所具有的两类节点以管理者

工作者的模式运行，

即单一

NameNode

(管理者)和若干个

DataNode

(工作者)

.NameNode

负责管理文件系统的命名空间，

DataNode

作为系统的工作节点，它们根据需

要存储并检索数据块

(

受客户端或

NameNode

调度

)

，并且定期向

NameNode

发送它们所存储的块列表［

］

但

HDFS

并不适合存储海量小文件，主要因为

NameNode

将文件系统的元数

据放在内存中，整个系统的文件数目受到

NameNode

内存大小的限制

根据经

验，每个文件、目录和数据块的存储信息大约占

150

字节

举例来说，如果有一

苏慕凉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫