hadoop.tmp.dir
指定的目录是本地目录,存储namenode的metadata,hdfs的块数据,还有临时数据,默认值/tmp/hadoop-${user.name}
fs.default.name
设置hadoop默认文件系统,URI的形式,需要指定namenode的主机名和端口
dfs.replication
默认是3
dfs.block.size
默认64M
dfs.data.dir
datanode的本地文件系统目录,存放hdfs块文件。如果是逗号分隔的路径列表,则每个路径下都可以保存数据,但不是像dfs.name.dir那样数据冗余。
dfs.name.dir
namenode的本地文件系统目录,存放hdfs的metadata(fsimage)。如果是逗号分隔的路径列表,那么fsimage信息在多个路径中做冗余保存
dfs.df.interval
磁盘使用统计刷新时间间隔,单位毫秒
dfs.client.block.write.retries
写数据到datanode的重试次数
dfs.heartbeat.interval
datanode心跳时间间隔,单位秒
mapred.job.tracker
jobtracker的ip地址、端口
mapred.system.dir
hdfs目录,存储共享的mapreduce系统文件
mapred.local.dir
map task中间结果存储路径,可配置多块磁盘缓解写压力
mapred.tasktracker.map.tasks.maximum
tasktracker上同时运行的map的最大数量
mapred.tasktracker.reduce.tasks.maximum
tasktracker上同时运行的reduce的最大数量
hadoop的io缓冲区大小默认4k,这个设置过于保守,通常设置成128k。
在core-site.xml文件中设置:
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
缓存map中间结果的缓冲区大小,默认100。设置较大的值,可以减少spill的次数,即减少磁盘操作次数。如果map的瓶颈在磁盘操作,可以提高map的性能。
<property>
<name>io.sort.mb</name>
<value>200</value>
</property>