hadoop元数据合并过程_基于Hadoop的海量小文件合并的研究与设计

基于

Hadoop

的海量小文件合并的研究与设计

彭建烽,魏文国,郑东炜

【摘

要】

摘要:基于

Hadoop

海量小文件合并的策略研究,一方面为了减轻

NameNode

的元数据量,利用

Eclipse

开发工具实现了

Har

HBase

SequenceFile

三种主流合并方案对海量小文件的合并;另一方面分析这三种主

流合并方案在不同场景下性能以及应用方面的优劣,进而为海量小文件在

Hadoop

上的存储提供一些有价值的参考

.

【期刊名称】

广东技术师范学院学报

(

社会科学版

)

【年

(

),

期】

2016(037)011

【总页数】

4

【关键词】

Hadoop

HDFS

;小文件;元数据;

Har

HBase

SequenceFile

1

引言

Hadoop

分布式数据存储和处理框架凭借其高效、可靠、高容错等优点,渐渐

成为了炙手可热的大数据存储和处理工具

.Hadoop

分布式文件系统(

HDFS

)

Hadoop

的核心部分,它所具有的两类节点以管理者

-

工作者的模式运行,

即单一

NameNode

(管理者)和若干个

DataNode

(工作者)

.NameNode

负责管理文件系统的命名空间,

DataNode

作为系统的工作节点,它们根据需

要存储并检索数据块

(

受客户端或

NameNode

调度

)

,并且定期向

NameNode

发送它们所存储的块列表[

1

.

HDFS

并不适合存储海量小文件,主要因为

NameNode

将文件系统的元数

据放在内存中,整个系统的文件数目受到

NameNode

内存大小的限制

.

根据经

验,每个文件、目录和数据块的存储信息大约占

150

字节

.

举例来说,如果有一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值