【hadoop】har://

最新推荐文章于 2023-09-04 16:23:03 发布

weixin_33863087

最新推荐文章于 2023-09-04 16:23:03 发布

阅读量178

点赞数

文章标签：大数据 java shell

来源：http://hadoop.apache.org/docs/r1.0.4/cn/hadoop_archives.html

在hadoop代码中发现了一个很奇怪的路径，由har://开头。经查询，发现是一类特定的文件类型Hadoop Archives。

什么是Hadoop archives?

Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据（形式是_index和_masterindx）和数据（part-*）文件。_index文件包含了档案中的文件的文件名和位置信息。

用途

hdfs并不擅长存储小文件，因为每个文件最少一个block，每个block的元数据都会在namenode节点占用内存，如果存在这样大量的小文件，它们会吃掉namenode节点的大量内存。

hadoop Archives可以有效的处理以上问题，他可以把多个文件归档成为一个文件，归档成一个文件后还可以透明的访问每一个文件，并且可以做为mapreduce任务的输入。

如何创建archive?

用法: hadoop archive -archiveName name <src>* <dest>

由-archiveName选项指定你要创建的archive的名字。比如foo.har。archive的名字的扩展名应该是*.har。输入是文件系统的路径名，路径名的格式和平时的表达方式一样。创建的archive会保存到目标目录下。注意创建archives是一个Map/Reduce job。你应该在map reduce集群上运行这个命令。下面是一个例子：

hadoop archive -archiveName foo.har /user/hadoop/dir1 /user/hadoop/dir2 /user/zoo/

在上面的例子中， /user/hadoop/dir1 和 /user/hadoop/dir2 会被归档到这个文件系统目录下 -- /user/zoo/foo.har。当创建archive时，源文件不会被更改或删除。

如何查看archives中的文件?

archive作为文件系统层暴露给外界。所以所有的fs shell命令都能在archive上运行，但是要使用不同的URI。另外，archive是不可改变的。所以重命名，删除和创建都会返回错误。Hadoop Archives 的URI是

har://scheme-hostname:port/archivepath/fileinarchive

如果没提供scheme-hostname，它会使用默认的文件系统。这种情况下URI是这种形式

har:///archivepath/fileinarchive

这是一个archive的例子。archive的输入是/dir。这个dir目录包含文件filea，fileb。把/dir归档到/user/hadoop/foo.bar的命令是

hadoop archive -archiveName foo.har /dir /user/hadoop

获得创建的archive中的文件列表，使用命令

hadoop dfs -lsr har:///user/hadoop/foo.har

查看archive中的filea文件的命令-

hadoop dfs -cat har:///user/hadoop/foo.har/dir/filea

weixin_33863087

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【hadoop】har://

来源：http://hadoop.apache.org/docs/r1.0.4/cn/hadoop_archives.html 在hadoop代码中发现了一个很奇怪的路径，由har://开头。经查询，发现是一类特定的文件类型Hadoop Archives。什么是Hadoop archives?Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件...
复制链接

扫一扫

weixin_33863087 CSDN认证博客专家 CSDN认证企业博客

码龄8年

138: 原创

-: 周排名

165万+: 总排名

130万+: 访问

: 等级

7599: 积分

5942: 粉丝

286: 获赞

31: 评论

1434: 收藏

私信

关注

热门文章

最新评论

74LS183 加法器【数字电路】
雨晨Arch: 使用74ls183(两个一位全加器)实现两个二位二进制加法(输出使用3个指示灯，其中一个表示进位)
DJI开发之航线重叠率的计算
ycy755343547: 您好，御3E怎样设置航向和旁向重叠率呢？可以实现不同高度自适应匹配航向和旁向重叠率么？
记录阿里云服务器mysql被黑
「已注销」: 唉，我今天也被黑了。索性重装系统
活动目录在构建核心过程中的八个关键点(上）
网安技术小白: 很感谢博主，你的博文很有用，萌新在这里点赞了
Work with Alexa ：Echo匹配连接到Alexa
杨天境: 请问，握手（Handshake）这个握手和我们知道的网络通信握手不同，这个握手是基于已经建立连接之后发送一些测试的二进制数据。这里的二进制数据是什么，有没有具体的协议进行参考

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。