hadoop优化 之 Archive 归档工具使用

本文介绍了Hadoop由于其文件系统机制在处理大量小文件时面临的问题,以及为解决这个问题而提供的Archive归档工具。通过Archive,可以将多个小文件归档成一个大文件,从而优化元数据管理。文章详细讲解了Archive的使用步骤,包括创建、查看和删除归档文件,并指出了Archive的一些局限性,如不支持压缩和不能修改等。
摘要由CSDN通过智能技术生成
  Hadoop并不擅长对小型文件的储存,原因取决于Hadoop文件系统的文件管理机制,Hadoop的文件存储的单元为一个块(block),block的数据存放在集群中的datanode节点上,由namenode对所有datanode存储的block进行管理。namenode将所有block的元数据存放在内存中,以方便快速的响应客户端的请求。那么问题来了,不管一个文件有多小,Hadoop都把它视为一个block,大量的小文件,将会把namenode的内存耗尽。
    那么如何对大量的小文件进行有效的处理呢?Hadoop的优秀工程师们其实已经为我们考虑好了,Hadoop提供了一个叫Archive归档工具,Archive可以把多个文件归档成为一个文件,换个角度来看,Archive实现了文件的元数据整理,但是,归档的文件大小其实没有变化,只是压缩了文件的元数据大小。
     Archive的用法:
    1、看一下,目录结构:    hadoop fs -ls -R

2、归档gs目录:hadoop archive -archiveName gs.har -p /user/c
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值