常用的hadoop配置文件笔记
一..core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<!--hadoop namenode节点的服务器地址和端口,可以域名或IP的形式-->
<property>
<name>fs.checkpoint.dir</name>
<value>/opt/data/hadoop/hdfs/namesecondary</value>
</property>
<!--hadoop ssecondarynamenode数据存储路径,可以配置成多个目录,需要逗号隔开。-->
<property>
<name>fs.checkpoint.period</name>
<value>1800</value>
</property>
<!--该属性是以秒为单位,配置editlog合并的时间.... 上述配置表示editlog每隔 30分钟触发一次合并 -->
<property>
<name>fs.checkpoint.size</name>
<value>33554432</value>
</property>
<!--该属性是以b为单位,配置editlog合并的大小,当 editlog 达到32m的时候触发一次合并 -->
<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec</value>
</property>
<!-- 配置压缩和解压的方式 -->
<property>
<name>fs.trash.interval</name>
<value>1440</value>
</property>
<!-- Hadoop文件回收站,自动回收时间,单位分钟,这里设置是1天-->
二.. hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/opt/local/hadoop/hdfs/name,/home/hadoop/hdfs/name,/nfs/name</value>
<description> </description>
</property>
<!--HDFS namenode image 文件保存地址,可以配置多个不同的分区和磁盘中,使用逗号分隔-->
<property>
<name>dfs.data.dir</name>
<value>/opt/local/hadoop/hdfs/data,/home/hadoop/hdfs/data</value>
<description> </description>
</property>
<!-- HDFS数据文件 存储路径,可以配置多个不同的分区和磁盘中,使用逗号分隔 -->
<property>
<name>dfs.http.address</name>
<value>master:50070</value>
<!-- 名称节点的http协议访问地址与端口-->
</property>
<property>
<name>dfs.secondary.http.address</name>
<value>node1:50090</value>
</property>
<!--secondary NameNode web管理端口-->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--HDFS数据块复制的数量,通常是3-->
<property>
<name>dfs.datanode.du.reserved</name>
<value>1073741824</value>
</property>
<!--每个卷预留的空间数量,单位 bytes(上述配置表示datanode 写磁盘会预留 1G空间给其他程序使用)->
<property>
<name>dfs.block.size</name>
<value>134217728</value>
</property>
<!--HDFS数据块大小,当前设置为128M/Block,默认为64M-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<!-- HDFS文件操作权限,默认weitrue-->
三 mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
<!--Jobtracker的RPC服务器所在的主机名称和端口-->
</property>
<property>
<name>mapred.local.dir</name>
<value>/opt/local/hadoop/mapred/mrlocal</value>
<final>true</final>
</property>
<!--MapReduce 产生的中间文件数据,按照磁盘可以配置成多个-->
<property>
<name>mapred.system.dir</name>
<value>/opt/local/hadoop/mapred/mrsystem</value>
<final>true</final>
<!-- 作业运行期间的存储共享目录的目录,必须是HDFS之上的目录-->
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>3</value>
<final>true</final>
<!-- 最大map槽位数量,默认是3个 -->
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
<final>true</final>
<!-- 单台机器最大reduce槽位数量 -->
</property>
<property>
<name>io.sort.mb</name>
<value>32</value>
<final>true</final>
<!--reduce排序使用内存大小,默认100M,要小于mapred.child.java.opts-->
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx64M</value>
<!-- map 和 reduce 进程 JVM 最大内存配置 -->
</property>
<property>
<name>mapred.compress.map.output</name>
<value>true</value>
<!-- map 和 reduce 输出中间文件默认开启压缩 -->
</property>
下面是网上看到的详细资料....记录下来,以备以后查询
hadoop-env.sh | |||
name | value | 含义 | |
JAVA_HOME | /usr/java/jdk1.6.0_30 | JDK所在路径 | |
JAVA_LIBRARY_PATH | /opt/hadoopgpl/native/Linux-amd64-64:/opt/modules/hadoop/hadoop-0.20.203.0/lib/native/Linux-amd64-64 | Lzo,Snappy,gzip 等压缩算法库地址 | |
HADOOP_HEAPSIZE | 26000 | 最大 HEAPSIZE 大小,默认 1000M | |
core-site.xml | |||
Name | value | 含义 | |
fs.default.name | hdfs://hadoopmaster:9000 | 指定默认的文件系统,默认端口 8020。 | |
fs.checkpoint.dir | /data1/hdfs/secondarynamenode,/data2/hdfs/secondarynamenode | 辅助NameNode检查点存储目录,分别存储到各个目录,支持冗余备份。 | |
fs.checkpoint.period | 1800 | editlog和fsimage,合并触发周期30分钟。 | |
fs.checkpoint.size | 33554432 | editlog和fsimage,合并触发日志大小32M。 | |
fs.trash.interval | 1440 | 文件清理周期 24小时 | |
io.compression.codecs | org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec | 压缩类库 | |
io.compression.codec.lzo.class | com.hadoop.compression.lzo.LzoCodec | LZO 编码类 | |
io.file.buffer.size | 65536 | 指定缓冲区的大小,默认4K太小,64k(65536)或128k(131072)更为常用 | |
topology.script.file.name | /opt/modules/hadoop/hadoop-0.20.203.0/conf/RackAware.py | 配置 机架感知的代码 | |
|
|
| |
hdfs-site.xml | |||
Name | Value | 含义 | |
dfs.name.dir | /data1/hadoop/hdfs/name,/data2/hadoop/hdfs/name,/nfs/hadoop/hdfs/name | NameNode上持久化存储元数据和事务日志的路径。指定多个目录的话,各个目录内容完全一致。 | |
dfs.data.dir | /data1/hadoop/hdfs/data /data2/hadoop/hdfs/data,/data3/hadoop/hdfs/data | DataNode上存储数据块的地方。如果指定多个目录,则数据库被随机的存放。 | |
dfs.http.address | hadoopmaster:50070 | HDFS 管理界面 | |
dfs.secondary.http.address | hadoopslave:50090 | secondary namenode http 地址 | |
dfs.replication | 整数 | 数据复制的份数 | |
dfs.datanode.du.reserved | 1073741824 | 预留文件数量 | |
dfs.block.size | 134217728 | HDFS 文件块大小,默认128M | |
dfs.datanode.max.xcievers | 4096 | datanode同时打开的文件上限。默认256太小。 | |
dfs.permissions | FALSE | 默认是 true,则打开前文所述的权限系统。如果是 false,权限检查 就是关闭的 | |
dfs.support.append | FALSE | 支持文件append,主要是支持hbase | |
|
|
| |
mapred-size.xml | |||
Name | Value | 说明 | |
mapred.job.tracker | hadoopmaster:9001 | Jobtracker的RPC服务器所在的主机名称和端口。 | |
mapred.local.dir | /data1/hadoop/mapred/mrlocal,/data2/hadoop/mapred/mrlocal | 存储作业中间数据的目录列表,作业结束后,数据被清楚 | |
mapred.system.dir | /data1/hadoop/mapred/mrsystem | 作业运行期间的存储共享目录的目录,必须是HDFS之上的目录 | |
mapred.task.tracker.map.tasks.maximum | 12 | 运行在tasktracker之上的最大map任务数 | |
mapred.task.tracker.reduce.tasks.maximum | 4 | 运行在tasktracker之上的最大reduce任务数 (MAP+RED=CPU核心*2) (Map/Red=4/1) | |
mapred.child.java.opts | -Xmx1536M | JVM选项,默认 -Xmx200m | |
mapred.compress.map.output | true | Map输出后压缩传输,可以缩短文件传输时间 | |
mapred.map.output.compression.codec | com.hadoop.compression.lzo.LzoCodec | 使用Lzo库作为压缩算法 | |
mapred.child.java.opts | -Djava.library.path=/opt/hadoopgpl/native/Linux-amd64-64 | 加载Lzo 库 | |
mapred.jobtracker.taskScheduler | org.apache.hadoop.mapred.CapacityTaskScheduler | 使用能力调度器 | |
mapred.queue.names | default,HIVE,ETL | 配置能力调度器队列 | |
fs.inmemory.size.mb | 300 | 为reduce阶段合并map输出所需的内存文件系统分配更多的内存 | |
io.sort.mb | 300 | reduce 排序时的内存上限 | |
mapred.jobtracker.restart.recover | true | 默认:false | |
mapred.reduce.parallel.copies | 10 | 默认:5 ,reduce 并行 copy的线程数 | |
|
|
| |
masters | |||
Value | 说明 | ||
hadoopslave |
| SecondaryNameNode HostName地址 | |
|
|
| |
slaves | |||
Value | 说明 | ||
datanode1 |
| DataNode TaskTracker HostName 地址列表 |