hadoop tunning

 

选项类型默认值描述
dfs.block.sizeint64M有一个1T的文件,如果我的块size设置是默认的64M,那么在HDFS上产生的块将有1024000/64=16000块
dfs.replicationint3存放数据文件的份数
    
    
    
    
    
    
    
    
选项类型默认值描述
io.sort.mbint100缓存map中间结果的buffer大小(MB)
io.sort.record.percentfloat0.05io.sort.mb中用来保存map output记录边界的百分比,其他缓存用来保存数据
io.sort.spill.percentfloat0.8map开始做spill操作的阀值
io.sort.factorint10做merge操作时同时操作的stream数上线
min.num.spill.for.combineint3combine函数运行的最小spill数
mapred.compress.map.outputbooleanFALSEmap中间结果是否采用压缩
mapred.map.output.compression.codecclass nameorg.apache.hadoop.io.compress.DefaultCodecmap中间结果的压缩方式
mapred.tasktracker.map.tasks.maximumint2一个tasktracker最多可以同时运行的map任务数量
mapred.map.tasksint2一个Job会使用task tracker的map任务槽数量,这个值 ≤ mapred.tasktracker.map.tasks.maximum
    
    
    
    
    
    
    
选项类型默认值描述
mapred.reduce.parallel.copiesint5每个reduce并行下载map结果的最大线程数
mapred.reduce.copy.backoffint300reduce下载线程最大等待时间(insec)
io.sort.factorint10做merge操作时同时操作的stream数上线
mapred.job.shuffle.input.buffer.percentfloat0.7用来缓存shuffle数据的reduce task heap百分比
mapred.job.shuffle.merge.percentfloat0.66缓存的内存中多少百分比后开始做merge操作
mapred.job.reduce.input.buffer.percentfloat0sort完成后reduce计算阶段用来缓存数据的百分比
mapred.tasktracker.reduce.tasks.maximumint2一个task tracker最多可以同时运行的reduce任务数量
mapred.reduce.tasksint1一个Job会使用task tracker的reduce任务槽数量
    
mapred.child.java.optsint200M配置每个map或reduce使用的内存数量
    
    
    
修改项修改值路径作用
HADOOP_OPTSHADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true"bin/hadoopdisable ipv6
Job的调度模式FIFO  
Fair  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值