MapReduce可调整参数解释


文章取自《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》


Map Task可调整参数

参数名称参数含义默认值
io.sort.mbMap Task缓冲区所占内存大小100MB
io.sort.record.percent缓冲kvoffsets和kvindices共占io.sort.mb的内存比例0.05
io.sort.spill.percent缓冲区kvoffsets或者kvoffsets内存使用率达到该比例后,会触发溢写操作,将内存中的数据写成一个文件0.80
mapred.compress.map.output是否压缩Map Task中间结果true
mapred.map.output.compression.codec如果支持压缩Map Task中间结果,则采用什么压缩器org.apache.hadoop.io.compress.zlib

Reduce Task可调整参数

参数名称参数含义默认值
mapred.reduce.parallel.copiesReduce Task同时启动的数据拷贝线程数目5
mapred.job.reduce.input.buffer.percentHadoop假设用户的reduce()函数需要所有的JVM内存,因此执行reduce()函数前要释放所有内存。如果设置了该值,可将部分文件保存在内存中(不必写到磁盘上)0
mapred.job.shuffle.input.buffer.percentShuffleRamManager管理的内存占JVM Heap Max Size的比例0.70
mapred.job.shuffle.merge.percent当内存使用率超过该值后,会触发一次合并,将内存中的数据写到磁盘上0.66
mapred.inmem.merge.threshold当内存中的文件数量超过该阈值时,会触发一次合并,将内存中的数据写到磁盘上1000
io.sort.factor文件合并时,一次合并的文件数目(合并后,将合并后的文件放到磁盘上继续合并,注意,每次合并时,选择最小的前io.sort.factor进行合并)10或100
tasktracker.http.threadsHTTP Server上的线程数。该Server运行在每个Task Tracker上,用于处理Map Task输出40
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值