Hadoop搭建配置信息

绝域时空

已于 2022-02-25 14:22:55 修改

阅读量820

点赞数

分类专栏：大数据组件文章标签： hadoop hdfs big data

于 2022-01-01 11:47:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_43405302/article/details/122266334

版权

大数据组件专栏收录该内容

24 篇文章 11 订阅

订阅专栏

文章目录

一、etc/hadoop/core-site.xml
二、etc/hadoop/hdfs-site.xml
- 1、NameNode的配置：
- 2、DataNode的配置：
三、etc/hadoop/yarn-site.xml
四、etc/hadoop/mapred-site.xml
- 1、MapReduce 应用程序的配置：
- 2、MapReduce JobHistory Server 的配置：
五、etc/hadoop/yarn-site.xml

一、etc/hadoop/core-site.xml

参数	value	描述
`fs.defaultFS`	名称节点 URI	hdfs://host:port 主机：端口
`io.file.buffer.size`	131072	序列文件中使用的读/写缓冲区的大小。

二、etc/hadoop/hdfs-site.xml

1、NameNode的配置：

参数	value	描述
`dfs.namenode.name.dir`	本地文件系统上的路径，其中 NameNode 永久存储命名空间和事务日志。	如果这是以逗号分隔的目录列表，则在所有目录中复制名称表，以实现冗余。
`dfs.hosts` / `dfs.hosts.exclude`	允许/排除的数据节点列表。	如有必要，请使用这些文件来控制允许的数据节点列表。
`dfs.blocksize`	268435456	HDFS 块大小为 256MB，适用于大型文件系统。
`dfs.namenode.handler.count`	100	更多 NameNode 服务器线程来处理来自大量 DataNode 的 RPC。

2、DataNode的配置：

参数	value	描述
`dfs.datanode.data.dir`	`DataNode`的本地文件系统上以逗号分隔的路径列表，它应该在其中存储其块。	如果这是以逗号分隔的目录列表，则数据将存储在所有命名目录中，通常存储在不同的设备上。

三、etc/hadoop/yarn-site.xml

1、ResourceManager 和 NodeManager 的配置：

参数	value	描述
`yarn.acl.enable`	true/false	是否启用 ACL？默认为false。
`yarn.admin.acl`	管理员 ACL	ACL 用于在群集上设置管理员。ACL 适用于逗号分隔用户空间逗号分隔组。默认为 * 的特殊值，这意味着任何人。空间的特殊价值意味着没有人可以进入。
`yarn.log-aggregation-enable`	false	启用或禁用日志聚合的配置

2、ResourceManager的配置：

参数	value	描述
`yarn.resourcemanager.address`	`ResourceManager`主机：端口，供客户端提交作业。	host：port(主机：端口)如果已设置，则覆盖
`yarn.resourcemanager.scheduler.address`	`ResourceManager` host：port，供 ApplicationMasters 与 Scheduler 通信以获取资源。	host：port(主机：端口)如果已设置，则覆盖`yarn.resourcemanager.hostname 中设置的主机名`。
`yarn.resourcemanager.resource-tracker.address`	`ResourceManager` host：nodeManagers 的 port。	host：port(主机：端口)如果已设置，则覆盖`yarn.resourcemanager.hostname 中设置的主机名`。
`yarn.resourcemanager.admin.address`	`ResourceManager`主机：用于管理命令的端口。	host：port(主机：端口)如果已设置，则覆盖`yarn.resourcemanager.hostname 中设置的主机名`。
`yarn.resourcemanager.webapp.address`	`ResourceManager` web-ui host：port.	host：port(主机：端口)如果已设置，则覆盖`yarn.resourcemanager.hostname 中设置的主机名`。
`yarn.resourcemanager.hostname`	`ResourceManager`主机。	host可以设置单个主机名来代替设置所有`yarn.resourcemanager*地址`资源。结果为资源管理器组件生成默认端口。
`yarn.resourcemanager.scheduler.class`	`ResourceManager`调度程序类。	`CapacityScheduler（`推荐`），FairScheduler（`也推荐）或`FifoScheduler。`使用完全限定的类名，例如`org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler`。
`yarn.scheduler.minimum-allocation-mb`	在`ResourceManager`中分配给每个容器请求的最小内存限制。	以 MB 为单位
`yarn.scheduler.maximum-allocation-mb`	在`ResourceManager`中分配给每个容器请求的最大内存限制。	以 MB 为单位
`yarn.resourcemanager.nodes.include-path` / `yarn.resourcemanager.nodes.exclude-path`	允许/排除的节点管理器列表。	如有必要，请使用这些文件来控制允许的节点管理器列表。

3、NodeManager 的配置：

参数	value	描述
`yarn.nodemanager.resource.memory-mb`	资源，即给定NodeManager的可用物理内存，以 MB 为单位	定义NodeManager上可供正在运行的容器使用的总可用资源
`yarn.nodemanager.vmem-pmem-ratio`	任务的虚拟内存使用率可能超过物理内存的最大比率	每个任务的虚拟内存使用率可能会超过其物理内存限制。节点管理器上的任务使用的虚拟内存总量可能会超过其物理内存使用率。
`yarn.nodemanager.local-dirs`	写入中间数据的本地文件系统上以逗号分隔的路径列表。	多个路径有助于传播磁盘 I/O。
`yarn.nodemanager.log-dirs`	写入日志的本地文件系统上以逗号分隔的路径列表。	多个路径有助于传播磁盘 I/O。
`yarn.nodemanager.log.retain-seconds`	10800	在 NodeManager 上保留日志文件的默认时间（以秒为单位）仅在禁用日志聚合时适用。
`yarn.nodemanager.remote-app-log-dir`	logs	HDFS 目录，应用程序日志在应用程序完成时在其中移动。需要设置适当的权限。仅当启用了日志聚合时才适用。
`yarn.nodemanager.remote-app-log-dir-sendix`	logs	远程日志目录的后缀。日志将聚合到 ${yarn.nodemanager.remote-app-log-dir}/$ {user}/${thisParam} 仅当启用了 log-aggregation 时才适用。
`yarn.nodemanager.aux-services`	mapreduce_shuffle	需要为 Map Reduce 应用程序设置的随机播放服务。
`yarn.nodemanager.env-whitelist`	容器从 NodeManagers 继承的环境属性	对于 mapreduce 应用程序，除了默认值之外，还应添加HADOOP_MAPRED_HOME。依赖资源JAVA_HOME，HADOOP_COMMON_HOME，HADOOP_HDFS_HOME，HADOOP_CONF_DIR，CLASSPATH_PREPEND_DISTCACHE，HADOOP_YARN_HOME，HADOOP_MAPRED_HOME

4、History Server的配置（需要移动到其他位置）：

参数	value	描述
`yarn.log-aggregation.retain-seconds`	-1	在删除聚合日志之前，要保留它们多长时间。-1 禁用。请注意，将其设置得太小，您将向名称节点发送垃圾邮件。
`yarn.log-aggregation.retain-check-interval-seconds`	-1	检查聚合日志保留期之间的时间。如果设置为 0 或负值，则该值将计算为聚合日志保留时间的十分之一。请注意，将其设置得太小，您将向名称节点发送垃圾邮件。

四、etc/hadoop/mapred-site.xml

1、MapReduce 应用程序的配置：

参数	value	描述
`mapreduce.framework.name`	yarn	执行框架设置为Hadoop YARN。
`mapreduce.map.memory.mb`	1536	地图的资源限制更大。
`mapreduce.map.java.opts`	1024M	映射的子 jvm 的堆大小更大。
`mapreduce.reduce.memory.mb`	3072	更大的资源限制以减少。
`mapreduce.reduce.java.opts`	2560M	对于 reduce 的子 jvms，堆大小更大。
`mapreduce.task.io.sort.mb`	512	更高的内存限制，同时对数据进行排序以提高效率。
`mapreduce.task.io.sort.factor`	100	对文件进行排序时，一次合并了更多流。
`mapreduce.reduce.shuffle.parallelcopies`	50	reduce 运行的并行副本数越多，即可从大量地图中获取输出。

2、MapReduce JobHistory Server 的配置：

参数	value	描述
`mapreduce.jobhistory.address`	地图还原作业历史服务器host:port（主机：端口）	默认端口为 10020。
`mapreduce.jobhistory.webapp.address`	MapReduce的JobHistory Server 网络地址host：port	默认端口为 19888。
`mapreduce.jobhistory.intermediate-done-dir`	/mr-history/tmp	由 MapReduce 作业写入历史文件的目录。
`mapreduce.jobhistory.done-dir`	/mr-history/done	历史记录文件由 MR 作业历史记录服务器管理的目录。

五、etc/hadoop/yarn-site.xml

参数	value	描述
`yarn.nodemanager.health-checker.script.path`	节点运行状况脚本	用于检查节点运行状况的脚本。
`yarn.nodemanager.health-checker.script.opts`	节点运行状况脚本选项	用于检查节点运行状况的脚本选项。
`yarn.nodemanager.health-checker.interval-ms`	节点运行状况脚本间隔	运行运行状况脚本的时间间隔。
`yarn.nodemanager.health-checker.script.timeout-ms`	节点运行状况脚本超时间隔	运行状况脚本执行超时。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

绝域时空 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。