HDFS之:小 文件归档
- 注意:需要YARN进程
start-yarn.sh
- 介绍:
小文件太多,会导致内存中存储大量的元数据信息,从而消耗大量的内存,这时候就需要用办法解决存储小文件,HAR:是一个更高效的存档工具,它将文件存入HDFS块,在减少NameNode 内存使用的同时,允许对文件进行透明访问(HDFS存档文件对内还是一个一个的独立文件,对NameNode而言却是一个整体,减少了NameNode的内存)。
1、归档文件
将 /AzF/input/ 下的所有文件归档为一个叫 input.har 的归档文件,并把归档后的文件存储到 /user/output 路径下。
hadoop archive -archiveName input.har -p /AzF/input /AzF/output
2、查看归档文件
- 注意:需要 har:// 这个协议头
hadoop fs -ls -R har:///AzF/output/input.har