Hadoop如何用自带HAR处理小文件问题

liziLove_fengmi

于 2020-08-12 10:03:06 发布

阅读量883

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liziLove_fengmi/article/details/107951004

版权

Hadoop存档

1．hdfs存储小文件弊端

每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此hadoop存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如，一个1MB的文件以大小为128MB的块存储，使用的是1MB的磁盘空间，而不是128MB。

2．解决存储小文件办法之一

Hadoop存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，Hadoop存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存。归档的过程是以MR的形式进行的，是一个mapreduce任务。

3．实操

（1）需要启动yarn进程

[hadoop@hadoop102 hadoop-2.7.2]$ start-yarn.sh

（2）归档文件

把/user/hadoop目录里面的所有文件归档成一个叫myhar.har的归档文件，并把归档后文件存储到/user/my路径下。

[hadoop@hadoop102 hadoop-2.7.2]$ bin/hadoop archive -archiveName myhar.har -p

/user/hadoop /user/my

（3）查看归档

[hadoop@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr /user/my/myhar.har

[hadoop@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr har:///user/my/myhar.har

（4）解归档文件

[hadoop@hadoop102 hadoop-2.7.2]$ hadoop fs -cp har:/// user/my/myhar.har/*

/user/hadoop

简单记忆，har归档可以理解为，将原来的小文件进行了压缩，将好多小文件压缩成一个打的文件，这样存储时只存储这一份大文件的源文件就可以了，再获取小文件数据时再使用相应的方法查看就可以了。

作者：大道至简_6a43
链接：https://www.jianshu.com/p/dc15f3cb3c4a
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

liziLove_fengmi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

liziLove_fengmi CSDN认证博客专家 CSDN认证企业博客

码龄5年

44: 原创

14万+: 周排名

152万+: 总排名

3万+: 访问

: 等级

577: 积分

13: 粉丝

12: 获赞

3: 评论

28: 收藏

私信

关注

热门文章

分类专栏

HIVE
zookeeper 1篇

最新评论

Flink综合61问
向彪-blockchain: 大佬辛苦了，难道您就是那天赋异禀之人？您必是时代的弄潮儿~方便的话可以加个关注。共同学习！一起进步！
Flink直击灵魂问答
向彪-blockchain: 抛开吸引人的标题，博主开发的精神值得学习。方便的话可以加个关注。共同学习！一起进步！
oracle中long和clob的区别以及性能问题？
不正经的kimol君: 厉害，赞一个,欢迎回赞哦~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。