hadoop 存档

最新推荐文章于 2024-07-21 20:48:00 发布

科大人

最新推荐文章于 2024-07-21 20:48:00 发布

阅读量132

点赞数

分类专栏：总结 Hadoop HDFS 文章标签： hadoop hadoop存档存档

总结同时被 2 个专栏收录

35 篇文章 0 订阅

订阅专栏

17 篇文章 0 订阅

订阅专栏

1）理论概述

每个文件均按块存储，每个块的元数据存储在 namenode 的内存中，因此 hadoop 存储小文件会非常低效。因为大量的小文件会耗尽 namenode 中的大部分内存。但注意，存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如，一个 1MB 的文件以大小为 128MB 的块存储，使用的是 1MB 的磁盘空间，而不是 128MB。

Hadoop 存档文件或 HAR 文件，是一个更高效的文件存档工具，它将文件存入 HDFS块，在减少 namenode 内存使用的同时，允许对文件进行透明的访问。具体说来，Hadoop存档文件可以用作 MapReduce 的输入。

2）案例实操

（1）需要启动 yarn 进程
start-yarn.sh

（2）归档文件：归档成一个叫做 xxx.har 的文件夹，该文件夹下有相应的数据文件。Xx.har 目录是一个整体，该目录看成是一个归档文件即可。
bin/hadoop archive -archiveName myhar.har -p /user/hadoop /user/my

（3）查看归档
hadoop fs -ls -R /user/my/myhar.har
hadoop fs -ls -R har:/user/my/myhar.har

（4）解归档文件
hadoop fs -cp har:/user/my/myhar.har/* /user/hadoop

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop 存档

1）理论概述&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;每个文件均按块存储，每个块的元数据存储在 namenode 的内存中，因此 hadoop 存储小文件会非常低效。因为大量的小文件会耗尽 namenode 中的大部分内存。但注意，存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如，一个 1MB 的文件以大小为 128MB 的块存储，使用的是 1MB 的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。