Hadoop—archive

Hadoop档案(Hadoop Archive, HAR)是解决HDFS中存储大量小文件问题的一种方式,通过打包多个小文件为一个.HAR文件,降低NameNode内存压力。本文介绍了HAR的结构、使用方法、查看、解压以及在MapReduce中的应用。" 117920127,11121198,系统文件句柄数配置与限制,"['系统配置', '内核优化', '资源管理']
摘要由CSDN通过智能技术生成

     HDFS并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在namenode节点占用内存,如果存在这样大量的小文件,它们会吃掉namenode节点的大量内存。Hadoop Archive是一个高效地将小文件放入HDFS块中的文件存档文件格式,它能够将多个小文件打包成一个后缀为.har文件,这样减少namenode内存使用的同时,仍然允许对文件进行透明的访问。


    Hadoop Archive目录包含metadata(in the form of _index and _masterindex)和data (part-*)文件。The _index file contains the name of the files that are part of the archive and the location within the part files.

    Hadoop官网的Hadoop Archives Guide

1. 怎么使用Archive

    用法:hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest>

    -archiveName用来指定要创建的archive的文件名,必须以.har结尾,例如:foo.har;

    -p用来指定Archive文件的父路径,指定了之后

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值