Hadoop核心配置文件参数及核心命令说明

最新推荐文章于 2024-06-25 10:33:50 发布

mesmall

最新推荐文章于 2024-06-25 10:33:50 发布

阅读量4.4k

点赞数 2

分类专栏： Hadoop 文章标签： hadoop hadoop配置参数 hadoop核心配置文件 hadoop核心文件

本文链接：https://blog.csdn.net/jintiaozhuang/article/details/45717267

版权

本文详细介绍了Hadoop的核心配置文件，包括dfs.hosts、mapred.hosts等，并解析了hdfs守护进程如namenode、datanode的关键属性，以及mapreduce守护进程如jobtracker、tasktracker的重要配置。此外，还列举了诸如hadoop-env.sh、core-site.xml等重要文件的作用。文章最后提及了Hadoop的命令行工具，如fsck、dfsadmin等，用于管理Hadoop集群和监控其状态。

摘要由CSDN通过智能技术生成

namenode（hdfs）+jobtracker（mapreduce）可以放在一台机器上，datanode+tasktracker可以在一台机器上，辅助namenode要单独放一台机器，jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上，一个目录对应一个磁盘)，namenode存储目录需要格式化，datanode存储目录不需要格式化，启动时自动创建
同一个datanode上的每个磁盘上的块不会重复，不同datanode之间的块才可能重复

部分文件的说明：

1、dfs.hosts 记录即将作为datanode加入集群的机器列表
2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表
3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表
4、master 记录运行辅助namenode的机器列表
5、slave 记录运行datanode和tasktracker的机器列表
6、hadoop-env.sh 记录脚本要用的环境变量，以运行hadoop
7、core-site.xml hadoop core的配置项，例如hdfs和mapreduce常用的i/o设置等
8、hdfs-site.xml hadoop守护进程的配置项，包括namenode、辅助namenode和datanode等
9、mapred-site.xml mapreduce守护进程的配置项，包括jobtracker和tasktracker
10、hadoop-metrics.properties 控制metrics在hadoop上如何发布的属性
11、log4j.properties 系统日志文件、namenode审计日志、tasktracker子进程的任务日志的属性

一、hdfs守护进程的关键属性

1、fs.default.name 类型：uri 默认值：file:/// 说明：默认文件系统，uri定义主机名称和namenode的rpc服务器工作的端口号，默认是8020，在core-site.xml中配置
2、dfs.name.dir 类型：以逗号分隔的目录名称默认值：${hadoop.tmp.dir}/dfs/name 说明：namenode存储永久性的元数据的目录列表，namenode在列表上的各个目录中均存放相同的元数据文件
3、dfs.data.dir 类型：以逗号分隔的目录名称默认值：${hadoop.tmp.dir}/dfs/data 说明：datanode存放数据块的目录列表，各个数据块分别存于某个目录中
4、fs.checkpoint.dir 类型：以逗号分隔的目录名称默认值：${hadoop.tmp.dir}/dfs/n