namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上,一个目录对应一个磁盘),namenode存储目录需要格式化,datanode存储目录不需要格式化,启动时自动创建
同一个datanode上的每个磁盘上的块不会重复,不同datanode之间的块才可能重复
部分文件的说明:
1、dfs.hosts 记录即将作为datanode加入集群的机器列表
2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表
3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表
4、master 记录运行辅助namenode的机器列表
5、slave 记录运行datanode和tasktracker的机器列表
6、hadoop-env.sh 记录脚本要用的环境变量,以运行hadoop
7、core-site.xml hadoop core的配置项,例如hdfs和mapreduce常用的i/o设置等
8、hdfs-site.xml hadoop守护进程的配置项,包括namenode、辅助namenode和datanode等
9、mapred-site.xml mapreduce守护进程的配置项,包括jobtracker和tasktracker
10、hadoop-metrics.properties 控制metrics在hadoop上如何发布的属性
11、log4j.properties 系统日志文件、namenode审计日志、tasktracker子进程的任务日志的属性
一、hdfs守护进程的关键属性
1、fs.default.name 类型:uri 默认值:file:/// 说明:默认文件系统,uri定义主机名称和namenode的rpc服务器工作的端口号,默认是8020,在core-site.xml中配置
2、dfs.name.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/name 说明:namenode存储永久性的元数据的目录列表,namenode在列表上的各个目录中均存放相同的元数据文件
3、dfs.data.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/data 说明:datanode存放数据块的目录列表,各个数据块分别存于某个目录中
4、fs.checkpoint.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/n
同一个datanode上的每个磁盘上的块不会重复,不同datanode之间的块才可能重复
部分文件的说明:
1、dfs.hosts 记录即将作为datanode加入集群的机器列表
2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表
3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表
4、master 记录运行辅助namenode的机器列表
5、slave 记录运行datanode和tasktracker的机器列表
6、hadoop-env.sh 记录脚本要用的环境变量,以运行hadoop
7、core-site.xml hadoop core的配置项,例如hdfs和mapreduce常用的i/o设置等
8、hdfs-site.xml hadoop守护进程的配置项,包括namenode、辅助namenode和datanode等
9、mapred-site.xml mapreduce守护进程的配置项,包括jobtracker和tasktracker
10、hadoop-metrics.properties 控制metrics在hadoop上如何发布的属性
11、log4j.properties 系统日志文件、namenode审计日志、tasktracker子进程的任务日志的属性
一、hdfs守护进程的关键属性
1、fs.default.name 类型:uri 默认值:file:/// 说明:默认文件系统,uri定义主机名称和namenode的rpc服务器工作的端口号,默认是8020,在core-site.xml中配置
2、dfs.name.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/name 说明:namenode存储永久性的元数据的目录列表,namenode在列表上的各个目录中均存放相同的元数据文件
3、dfs.data.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/data 说明:datanode存放数据块的目录列表,各个数据块分别存于某个目录中
4、fs.checkpoint.dir 类型:以逗号分隔的目录名称 默认值:${hadoop.tmp.dir}/dfs/n