HDFS空间优化

最新推荐文章于 2023-09-01 16:37:35 发布

Sin_Geek

最新推荐文章于 2023-09-01 16:37:35 发布

阅读量1.2k

点赞数 1

分类专栏：大数据技术文章标签： HDFS优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sin_geek/article/details/82733241

版权

本文介绍了HDFS空间优化的几种策略，包括使用HDFS存档（HAR）减少NameNode内存消耗，通过降低文件副本数节省存储空间，以及清理无用数据和管理Trash回收站以释放空间。此外，还讨论了Balancer重新平衡的配置与优化方法，以确保HDFS集群的高效运行。

摘要由CSDN通过智能技术生成

#1 HDFS存档/归档
存档是用来备份的时候标识用的，说白就是做个标记，表示这个文档在上次备份之后有没有被修改过，比如当月1号，你给全盘做了一次备份，那么所有的文档的存档属性都会被清除，表示备份过了。此后，如果你修改了某个文件，那么这个文件的存档属性就会被加上。当几天后，你再做“增量”备份时候，系统就会只备份那些具有“存档”属性的文件。

每个文件均按块方式存储，每个块的元数据存储在namenode的内存中，因此hadoop存储小文件会非常低效。因为大量的小文件会耗尽namenode中的大部分内存(文件大小为5kb，产生的元数据为150kb，得不偿失)。一个1MB的文件以大小为128MB的块存储，使用的是1MB的磁盘空间，而不是128MB。

Hadoop存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少namenode内存使用的同时，允许对文件进行透明的访问。具体说来，Hadoop存档文件可以用作MapReduce的输入。

HDFS归档相当于把所有文件归档在一个文件夹里面了，该文件夹以.har命名的。

当有很多的小文件时，可以通过归档来解决

【归档指令】

Hadoop archive–archiveName myhar.har –p /user/my /user

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。