hadoop优化之 Archive 归档工具使用

最新推荐文章于 2024-08-10 08:37:29 发布

初级以上

最新推荐文章于 2024-08-10 08:37:29 发布

阅读量6.2k

点赞数

分类专栏： Hadoop生态圈文章标签： hadoop 优化 archive shell

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Veechange/article/details/50776177

版权

本文介绍了Hadoop由于其文件系统机制在处理大量小文件时面临的问题，以及为解决这个问题而提供的Archive归档工具。通过Archive，可以将多个小文件归档成一个大文件，从而优化元数据管理。文章详细讲解了Archive的使用步骤，包括创建、查看和删除归档文件，并指出了Archive的一些局限性，如不支持压缩和不能修改等。

摘要由CSDN通过智能技术生成

Hadoop并不擅长对小型文件的储存，原因取决于Hadoop文件系统的文件管理机制，Hadoop的文件存储的单元为一个块（block），block的数据存放在集群中的datanode节点上，由namenode对所有datanode存储的block进行管理。namenode将所有block的元数据存放在内存中，以方便快速的响应客户端的请求。那么问题来了，不管一个文件有多小，Hadoop都把它视为一个block，大量的小文件，将会把namenode的内存耗尽。

那么如何对大量的小文件进行有效的处理呢？Hadoop的优秀工程师们其实已经为我们考虑好了，Hadoop提供了一个叫Archive归档工具，Archive可以把多个文件归档成为一个文件，换个角度来看，Archive实现了文件的元数据整理，但是，归档的文件大小其实没有变化，只是压缩了文件的元数据大小。

Archive的用法：

1、看一下，目录结构： hadoop fs -ls -R

2、归档gs目录：hadoop archive -archiveName gs.har -p /user/c

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。