大数据-----Hadoop Archives

最新推荐文章于 2024-05-06 19:56:19 发布

j_ys

最新推荐文章于 2024-05-06 19:56:19 发布

阅读量201

点赞数 2

文章标签： hadoop Archives

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jinyusheng_1991/article/details/81870634

版权

1.Hadoop Archives：文件归档，是对HDFS的优化，我们在上传文件的时候会出现小文件（比如几kb的文件），这些小文件也会至少占用一个块（block），而每一个块的元数据在Namenode内存中都会被记录。当小文件过多的时候，就会给内存造成压力。Hadoop Archives功能就是给这些小文件归档成一个文件并可以在外部对这归档后的文件中的每一个小文件进行访问。

2.创建Archives：

命令语句（举一个例子）

hadoop archive -archiveName node.har –p /in /out

hadoop archive -archiveName：是固定的，表示我们要开始进行文件合并，

node.har：表示合并后的文件名，这里需要注意我们合并后的文件名必须以.har结尾。

in：表示合并之前存储小文件的目录（路径）。

out：表示合并之后存储.har目录文件的（路径）。

这里合并的底层实质是运行一个map/reduce任务，同时注意当我们创建一个archive 文件就不可以被修改，同时原来的那些小文件也没有发生任何的变化（移动或者删除）。

3.查看Archives：（举例）hadoop fs -ls /out/node.har 。在我们输入正确的查看命令后，对于合并后的目录下面一般有如下四种类型的文件。

_index:索引文件。

_masterinedx:索引文件。

_SUCCESS：表示成功与否的文件。

Part-*: 合并之后的集合文件。

这里当我们查看part-*文件的时候，它是一个集合文件，会把所有小文件集合成一个文件，如果我们要看合并之前都有哪些文件用下面的命令：

har://scheme-hostname:port/archivepath/fileinarchive 这一条命令会罗列出合并之前所有的小文件。

4.Archives解压（举例）：

按顺序解压存档（串行）：

Hadoop fs -cp har:///ha/demo/node.har/dir1 hdfs:/ha/demo/newdir

要并行解压存档，请使用 DistCp：

hadoop distcp har:///ha/demo/node.har/dir1 hdfs:/ha/demo/newdir

两种解压方法手段不一样，但是最终呈现的效果是一样的（默认情况下），都是把合并文件分成原来组成的各个小文件，这里需要注意解压这个词和传统相比有些特殊，因为解压前后只有文件数量发生变化，各个小文件大小之和与合并文件相等，都占用相同的磁盘空间。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据-----Hadoop Archives

1.Hadoop Archives：文件归档，是对HDFS的优化，我们在上传文件的时候会出现小文件（比如几kb的文件），这些小文件也会至少占用一个块（block），而每一个块的元数据在Namenode内存中都会被记录。当小文件过多的时候，就会给内存造成压力。Hadoop Archives功能就是给这些小文件归档成一个文件并可以在外部对这归档后的文件中的每一个小文件进行访问。 2.创建Arc...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。