一种
Hadoop
小文件存储优化策略研究
杜忠晖
;
何慧
;
王星
【期刊名称】
《智能计算机与应用》
【年
(
卷
),
期】
2015(005)003
【摘要】
随着“大数据”时代的到来
,Hadoop
等大数据处理平台也应运而生
.
但
其存储载体——
Hadoop
分布式文件系统却在海量小文件存储方面存在着很大
缺陷
,
存储海量小文件会导致整个集群的负载增高、运行效率下降
.
为了解决这一
针对小文件的存储缺陷
,
通常的方法是将小文件进行合并
,
将合并后的大文件进行
存储
,
但以往方法并未将文件体积大小分布加以利用
,
未能进一步提升小文件合并
效果
.
本文提出一种基于数据块平衡的小文件合并算法
,
优化合并后的大文件体积
分布
,
有效降低
HDFS
数据分块
,
从而减少集群主节点内存消耗、降低负载
,
使数
据处理过程可以更高效的运行
.
【总页数】
6
页
(28-32,36)
【关键词】
HDFS;
小文件存储
;
小文件合并算法
【作者】
杜忠晖
;
何慧
;
王星
【作者单位】
哈尔滨工业大学计算机科学与技术学院
,
哈尔滨
150001;
哈尔滨工
业大学计算机科学与技术学院
,
哈尔滨
150001;
哈尔滨工业大学计算机科学与技
术学院
,
哈尔滨
150001
【正文语种】
中文
【中图分类】
TP391.41
【相关文献】
1.
一种
Hadoop
小文件存储优化策略研究
[J],
杜忠晖
;
何慧
;
王星