HDFS之小文件归档

最新推荐文章于 2024-07-17 09:15:44 发布

QYHuiiQ

最新推荐文章于 2024-07-17 09:15:44 发布

阅读量504

点赞数

分类专栏：大数据之Hadoop 文章标签： hdfs hadoop 大数据

本文链接：https://blog.csdn.net/QYHuiiQ/article/details/126274690

版权

大数据之Hadoop 专栏收录该内容

58 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

当HDFS中存在大量小文件时，会消耗大量内存资源。通过启动yarn，利用MapReduce进行小文件归档，将多个小文件合并为一个大文件，从而优化元数据管理。归档后，使用har协议头可查看各小文件内容，需要时可拷贝回指定目录。

摘要由CSDN通过智能技术生成

在实际生产应用总难免会遇到一些小文件，而对于任何一个文件块来说，无论块本身的大小如何，他们的元数据都会在内存中占用150个字节，如果系统中存储了大量的小文件，那么就会造成较大的资源浪费，所以我们会对小文件进行归档，使多个小文件当作一个文件去占用内存中的150个字节。实现如下：

启动yarn

该过程背后实际上是MapReduce在操作，所以要确保yarn进程是启动的。

[root@hadoop302 sbin]# ./start-yarn.sh

上传多个测试小文件

[root@hadoop301 hadoop-3.1.3]# cd testdata/;ll
total 32
-rw-r--r--. 1 root root  43 Jul 30 08:39 dept.txt
-rw-r--r--. 1 root root  78 Jul 30 08:38 employee.txt
-rw-r--r--. 1 root root  72 Jul 24 08:36 testcombine1.txt
-rw-r--r--. 1 root root  88 Jul 24 08:37 testcombine2.txt
-rw-r--r--. 1 root root  24 Jul 24 08:37 testcombine3.txt
-rw-r--r--. 1 root root 351 Jul 24 08:38 testcombine4.txt
-rw-r--r--. 1

了解本专栏

超级会员免费看

QYHuiiQ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
HDFS之小文件归档

在实际生产应用总难免会遇到一些小文件，而对于任何一个文件块来说，无论块本身的大小如何，他们的元数据都会在内存中占用150个字节，如果系统中存储了大量的小文件，那么就会造成较大的资源浪费，所以我们会对小文件进行归档，使多个小文件当作一个文件去占用内存中的150个字节。该过程背后实际上是MapReduce在操作，所以要确保yarn进程是启动的。这样就简单地实现了HDFS中小文件的归档。...
复制链接

扫一扫