hdfs-site.xml
配置项 | 配置说明 | 默认值 | 修改值 |
---|---|---|---|
dfs.blocksize | 配置块大小,默认是128m,必须得是1024(page size)的整数倍 | 134217728 | |
dfs.replication | blockj副本数 | 3 | 1 |
dfs.permissions | dfs权限配置 | false:关闭dfs权限配置 | |
dfs.namenode.support.allow.format | NameNode是否允许被格式化,就是允不允许-format命令的执行;在生产系统中,通常初次格式化后,修改配置禁止,改成false | true | false |
dfs.heartbeat.interval | DataNode的心跳间隔,默认单位为秒,在集群网络通信状态不好的时候,适当调大 | 3 | |
dfs.namenode.checkpoint.period或者fs.checkpoint.period | edits和fsimage文件合并周期阈值,默认单位为s | 3600 | |
dfs.stream-buffer-size | 文件流缓存大小。需要是硬件page大小的整数倍。在读写操作时,数据缓存大小。注意:是1024的整数倍;注意和core-default.xml中指定文件类型的缓存是不同的,这个是dfs共用的 | 4096 |
core-site.xml
配置项 | 配置说明 | 默认值 | 配置说明 |
---|---|---|---|
hadoop.tmp.dir | namenode元数据存储目录 | /tmp | /home/software/hadoop-2.7.1/tmp |
fs.checkpoint.size | edit文件滚动大小 | 64M,配置文件中单位是字节 | |
fs.checkpoint.period | edit文件滚动时间 | 3600s | |
fs.trash.interval | 开启回收站,并且回收站内容1440min后自动删除 | 1440 | |
hadoop.tmp.dir | namenode元数据存储目录 | /tmp | /home/software/hadoop-2.7.1/tmp |
hadoop.tmp.dir | namenode元数据存储目录 | /tmp | /home/software/hadoop-2.7.1/tmp |
hadoop.tmp.dir | namenode元数据存储目录 | /tmp | /home/software/hadoop-2.7.1/tmp |
hadoop.tmp.dir | namenode元数据存储目录 | /tmp | /home/software/hadoop-2.7.1/tmp |
hadoop.tmp.dir | namenode元数据存储目录 | /tmp | /home/software/hadoop-2.7.1/tmp |
hadoop.tmp.dir | namenode元数据存储目录 | /tmp | /home/software/hadoop-2.7.1/tmp |
hadoop.tmp.dir | namenode元数据存储目录 | /tmp | /home/software/hadoop-2.7.1/tmp |
hadoop-site.xml
配置项 | 配置说明 | 默认值 | 修改值 |
---|---|---|---|
topology.script.file.name | 机架感知配置脚本 | /path/to/RackAware.py |
mapred-site.xml
配置项 | 配置说明 | 默认值 | 修改值 |
---|---|---|---|
mapreduce.task.io.sort.mb | 那个环形缓冲区的大小;map任务内部排序缓冲区大小,默认单位是MB,此参数调大,能够减少Spil溢写次数,减少磁盘I/O建议:250MB~400MB | 100 | 400 |
mapreduce.map.sort.spill.percent | Map阶段溢写文件的阈值。不建议修改此值 | 0.8 | |
mapreduce.reduce.shuffle.parallelcopies | ReduceTask 启动的并发拷贝数据的线程数(fetch线程数),建议尽可能等于或接近于Map任务数量,达到并行抓取的效果 | 5 | |
mapreduce.job.reduce.slowstart.completedmaps | 当Map任务数量完成率在5%时,Reduce任务启动,这个参数建议不要轻易改动,如果Map任务总量非常大时,可以将此参数调低,让reduce更早开始工作。 | 0.05 | |
io.sort.factor | 文件合并(Merge)因子,如果文件数量太多,可以适当调大,从而减少I/O次数 | 10 | |
mapred.compress.map.output | 是否对Map的输出结果文件进行压缩,默认是不压缩。但是如果Map的结果文件很大,可以开启压缩,在Reduce的远程拷贝阶段可以节省网络带宽。但是存在解压时间 | false | |
mapred.map.tasks.speculative.execution | 启动map任务的推测执行机制。对于这个参数的控制,轻易不要改动。但是在集群计算资源紧张时,比如同时在运行很多个job,启动推测机制可能会带来相反效果。如果是这样,就改成false | true | |
mapred.reduce.tasks.speculative.execution | 启动reduce任务的推测执行机制,这个一般也设置成false | true |