mr核心的几个参数:
conf/mapred-site.xml:
mapreduce.task.io.sort.mb
任务内部排序缓冲区大小默认100m
mapreduce.map.sort.spill.percent
Map阶段溢写文件的阈值(排序缓冲区大小的百分比)默认0.8
mapreduce.reduce.shuffle.parallelcopies
Reduce Task启动的并发拷贝数据的线程数目默认5
mapreduce.map.memory.mb
每个Map Task需要的内存量默认1024m
mapreduce.map.java.opts
map的最大累计内存如:-Xmx1024M
mapreduce.reduce.memory.mb
每个Reduce Task需要的内存量默认1024m
mapreduce.reduce.java.opts
所有reduce加起来的总和内存大小如:-Xmx1024M
mapreduce.job.jvm.num.tasks
默认为1,设置为 -1,重用jvm
dfs io:
io.file.buffer.size
默认4k,根据需要适当调高
namenode性能调优参数:
dfs.namenode.handler.count
主要是namenode处理datanode的rpc进程数默认是100
其他参数:
mapreduce.job.reduce.slowstart.completed.maps
默认值是0.05,也就是map task完成数目达到5%时,开始启动reduce task
下述意义不大
conf/yarn-site.xml
yarn.nodemanager.resource.memory-mb
NodeManager总的可用物理内存,默认值是8192MB,一般情况下不要修改
yarn.nodemanager.vmem-pmem-ratio
每使用1MB物理内存,最多可用的虚拟内存数默认2.1
yarn.nodemanager.resource.cpu-vcores
参数解释:NodeManager总的可用虚拟CPU个数。默认值:8