Hadoop之小文件

一.概述

  1. 每个小文件无论多小都会对应一个block,而每一个小文件在NameNode中都要有元数据的记录,如果存在大量小文件,则NameNode中的大量空间都用来存放这些小文件的元数据信息,其实是相当浪费的,对于NameNode的性能有比较大的影响
  2. 当使用MapReduce处理大量小文件时,默认情况下MapReduce在进行切片操作时规则是和block切的规则一样,即一个block对应一个inputSplit,而一个InputSplit就对应一个Mapper,这样会造成开启大量的MapperTask,但是每个MapperTask处理的数据量都很有限.极端情况下,开启大量Mapper耗费内存,甚至可能造成程序的崩溃.

二.解决方案

Hadoop Archive

  1. Archive简称为HAR,是一个高效的将小文件放入HDFS块中的文件存档工具,它能够将多个小文件打包成一个HAR文件,这样在减少NameNode内存使用的同时,仍然允许对文件进行透明的访问

  2. HAR是在Hadoop File System之上的一个文件系统,因此所有fs shell命令对HAR文件均可用,只不过是文件路径格式不一样,HAR的访问路径可以是两种格式:

    har://scheme-hostname:port/archivepath/fileinarchive

    har:///archivepath/fileinarchive(本节点)

注意事项

  1. 对小文件进行存档后,原文件并不会自动被删除,需要用户自己删除
  2. 创建HAR文件的过程实际上是在运行一个MapReduce作业,因而需要有一个Hadoop集群运行此命令

缺点

  1. 一旦创建,Archives便不可改变.要增加或移除里面的文件,必须重新创建归档文件
  2. 要归档的文件名中不能有空格,否则会抛出异常,可以将空格用其他符合替换(使用-Dhar.space.replac
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值