大数据-----Hadoop Archives

1.Hadoop Archives:文件归档,是对HDFS的优化,我们在上传文件的时候会出现小文件(比如几kb的文件),这些小文件也会至少占用一个块(block),而每一个块的元数据在Namenode内存中都会被记录。当小文件过多的时候,就会给内存造成压力。Hadoop Archives功能就是给这些小文件归档成一个文件并可以在外部对这归档后的文件中的每一个小文件进行访问。

 

2.创建Archives:

命令语句(举一个例子)

hadoop archive -archiveName node.har –p /in /out

hadoop archive -archiveName:是固定的,表示我们要开始进行文件合并,

node.har: 表示合并后的文件名,这里需要注意我们合并后的文件名必须以.har结尾。

in:表示合并之前存储小文件的目录(路径)。

out:表示合并之后存储.har目录文件的(路径)。

这里合并的底层实质是运行一个map/reduce任务,同时注意当我们创建一个archive 文件就不可以被修改,同时原来的那些小文件也没有发生任何的变化(移动或者删除)。

 

3.查看Archives:(举例)hadoop fs -ls /out/node.har 。在我们输入正确的查看命令后,对于合并后的目录下面一般有如下四种类型的文件。

_index:索引文件。

_masterinedx:索引文件。

_SUCCESS:表示成功与否的文件。

Part-*: 合并之后的集合文件。

这里当我们查看part-*文件的时候,它是一个集合文件,会把所有小文件集合成一个文件,如果我们要看合并之前都有哪些文件用下面的命令:

har://scheme-hostname:port/archivepath/fileinarchive  这一条命令会罗列出合并之前所有的小文件。

4.Archives解压(举例):

按顺序解压存档(串行):

Hadoop fs -cp har:///ha/demo/node.har/dir1 hdfs:/ha/demo/newdir

要并行解压存档,请使用 DistCp:

hadoop distcp har:///ha/demo/node.har/dir1 hdfs:/ha/demo/newdir

两种解压方法手段不一样,但是最终呈现的效果是一样的(默认情况下),都是把合并文件分成原来组成的各个小文件,这里需要注意解压这个词和传统相比有些特殊,因为解压前后只有文件数量发生变化,各个小文件大小之和与合并文件相等,都占用相同的磁盘空间。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值