Hadoop 存档---解决小文件存储问题

最新推荐文章于 2023-11-29 15:32:42 发布

qq_43193797

最新推荐文章于 2023-11-29 15:32:42 发布

阅读量303

点赞数 1

分类专栏： hadoop

本文链接：https://blog.csdn.net/qq_43193797/article/details/85059380

版权

hadoop 专栏收录该内容

45 篇文章 1 订阅

订阅专栏

1）理论概述

1 HDFS存储小文件弊端

每个文件均按块存储，每个块的元数据存储在namenode 的内存中，因此 hadoop 存储小文件会非常低效。因为大量的小文件会耗尽 namenode 中的大部分内存。但注意，存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多。例如，一个 1MB 的文件以大小为 128MB 的块存储，使用的是 1MB 的磁盘空间，而不是 128MB。

2.解决存储小文件办法之一

Hadoop 存档文件或 HAR 文件，是一个更高效的文件存档工具，它将文件存入 HDFS块，在减少 namenode 内存使用的同时，允许对文件进行透明的访问。具体说来，Hadoop存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存。
存档文件可以用作 MapReduce 的输入。
在这里插入图片描述

3．案例实操

（1）需要启动YARN进程
start-yarn.sh
（2）归档文件
把/user/atguigu/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/atguigu/output路径下。
bin/hadoop archive -archiveName input.har –p /user/atguigu/input /user/atguigu/output
（3）查看归档
hadoop fs -lsr /user/atguigu/output/input.har
hadoop fs -lsr har:///user/atguigu/output/input.har
（4）解归档文件
hadoop fs -cp har:/// user/atguigu/output/input.har/* /user/atguigu

总结：
HDFS不太适合存储小文件！

①源头上解决，在上传大量小文件时！将大量小文件打包为一个文件！
②如果小文件已经上传到了HDFS，可以使用HDFS提供的归档工具Har
类似tar工具！

归档，需要运行一个MR程序进行归档操作！如果MR运行在YARN上，需要启动RM，NM！

归档： hadoop archive -archiveName 归档后目录名 -p 源文件父目录 src* 归档后存放目的地

查看： hadoop fs -ls -R har:///xxx

解档： hadoop fs -cp har:///xxx 目的地