hdfs解决小文件吃(元数据)内存问题----归档archive

最新推荐文章于 2023-03-18 18:06:17 发布

DI O

最新推荐文章于 2023-03-18 18:06:17 发布

阅读量241

点赞数

分类专栏： hdfs hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LeFran/article/details/119831360

版权

hadoop 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

文件归档工具archive

1 原因 :
2 解决
3 具体使用
- 1 创建档案
- 2 查看归档包中的某一个具体文件的信息

1 原因 :

hdfs本身就不适合小文的存储
小文件无论多小,hdfs的元数据也要记住这个文件,而元数据是存在内存中的…
如果集群中的小文件过多 ,就会造成内存被撑爆. 这就是小文件吃内存问题.

2 解决

将一批小文件归档为一个档案文件 .List item
底层是通过 MapReduce程序将小文件进行合并. 启动yarn集群执行mr程序.
一般以周,月为单位进行归档 .

3 具体使用

1 创建档案

hadoop archive -archibeName 归档包名.har -p 要被归档的目录路径归档包存储的目录

hadoop archive -archiveName my.har -p /test02 /outputDir

hadoop fs -ls 归档包路径这只是查看归档包的信息,查看不到文件信息

hadoop fs -ls har://hdfs-node1:8020/ 归档包路径

hadoop fs -ls har://hdfs-node1:8020/my.har

2 查看归档包中的某一个具体文件的信息

hadoop fs -ls har://hdfs-node1:8020/ 归档包路径文件名

hadoop fs -ls har://hdfs-node1:8020/my.har/1.txt
如果操作是本地 可以简写  har:///outputDi
hadoop fs -ls har:///my.har/1.txt

提取归档包的归档文件到指定路径

hadoop fs -cp har://hdfs-node1:8020/ 归档包路径/*  /目的地目录

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hdfs解决小文件吃(元数据)内存问题----归档archive

文件归档工具archive1 原因 :2 解决3 具体使用1 创建档案2 查看归档包中的某一个具体文件的信息1 原因 :hdfs本身就不适合小文的存储小文件无论多小,hdfs的元数据也要记住这个文件,而元数据是存在内存中的…如果集群中的小文件过多 ,就会造成内存被撑爆. 这就是小文件吃内存问题.2 解决将一批小文件归档为一个档案文件 .List item底层是通过 MapReduce程序将小文件进行合并. 启动yarn集群执行mr程序.一般以周,月为单位进行归档 .3 具体使用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。