Hadoop小文件优化

一、Hadoop小文件弊端

1、小文件多会占用大量NameNode的内存空间(每个元数据的大小约150byte)

2、元数据文件过多,使得寻址索引速度变慢

3、小文件过多启动MapTask数量多,有可能处理时间比启动时间还短,白白消耗资源

二、解决方案

3个方向,4个方面

1、数据源头方向

在数据采集时,就将小文件或小批数据合并成大方件再上传HDFS

2、存储方向

(1)har文件-文件归档,是一个高效的将小文件放入HDFS块中的文件存档工具,即将多个小文件打包成一个Har文件。

(2)HDFS存档文件对内还是一个个独立文件,对NameNode而言却是一个整体,减少NameNode内存使用

3、计算方向

(1)使用CombineTextInputFormat将多个小文件在切片过程中合并切片,减少切片数量

        job.setInputFormatClass(CombineTextInputFormat.class)

        CombineTextInputFormat.setMaxInputSplitSize(job,4194304)

(2)开启uber模式,实现JVM重用。

        默认情况下每个task任务都要启动一个JVM来运行,如果task任务计算的数据量很小,可以让同一个job的多个task运行在一个JVM中,不必为每个task都开启一个JVM。(如果job任务足够小,则直接让任务串行的在MRAppMaster完成,这样整个Application只会使用一个Container(JVM重用功能),相对于分配多个Container来说执行效率要高很多。)

        mapred-site.xml 4个参数:

 仅仅满足以上四个参数还不行,因为作业是在AM所在的Container中运行,Uber任务执行还应满足如下条件:

(1) Map内存设置(mapreduce.map.memory.mb)和Reduce内存设置(mapreduce.reduce.memory.mb)必须小于等于AM所在容器内存大小设置(yarn.app.mapreduce.am.resource.mb)。

(2) Map配置的vcores(mapreduce.map.cpu.vcores)个数和 Reduce配置的vcores(mapreduce.reduce.cpu.vcores)个数也必须小于等于AM所在容器vcores个数的设置(yarn.app.mapreduce.am.resource.cpu-vcores)。

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值