hdfs解决小文件吃(元数据)内存问题----归档archive

2 篇文章 0 订阅

1 原因 :

  • hdfs本身就不适合小文的存储
  • 小文件无论多小,hdfs的元数据也要记住这个文件,而元数据是存在内存中的…
  • 如果集群中的小文件过多 ,就会造成内存被撑爆. 这就是小文件吃内存问题.

2 解决

  • 将一批小文件归档为一个档案文件 .List item
  • 底层是通过 MapReduce程序将小文件进行合并. 启动yarn集群执行mr程序.
  • 一般以周,月为单位进行归档 .

3 具体使用

1 创建档案

hadoop archive -archibeName 归档包名.har -p 要被归档的目录路径 归档包存储的目录

hadoop archive -archiveName my.har -p /test02 /outputDir

hadoop fs -ls 归档包路径 这只是查看归档包的信息,查看不到文件信息

hadoop fs -ls har://hdfs-node1:8020/ 归档包路径

hadoop fs -ls har://hdfs-node1:8020/my.har

2 查看归档包中的某一个具体文件的信息

hadoop fs -ls har://hdfs-node1:8020/ 归档包路径 文件名

hadoop fs -ls har://hdfs-node1:8020/my.har/1.txt
如果操作是本地 可以简写  har:///outputDi
hadoop fs -ls har:///my.har/1.txt

提取归档包的归档文件到指定路径

hadoop fs -cp har://hdfs-node1:8020/ 归档包路径/*  /目的地目录 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值