Hadoop环境配置
基本环境配置
core-site.xml
<configuration>
<!-- 指定NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<!-- 指定hadoop数据的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>
<!-- 配置HDFS网页登录使用的静态用户为xxyw-->
<property>
<name>hadoop.http.staticuser.user</name>
<value>xxyw</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<!-- NameNode web端访问地址-->
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102:9870</value>
</property>
<!-- Secondary NameNode web端访问地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:9868</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<!-- 指定MR走shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>
<!-- 环境变量的继承 -->
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<!-- 指定MapReduce程序运行在Yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
workers
设置分布式节点,在Hadoop2.X中文件名是slaves
hadoop102
hadoop103
hadoop104
设置3个节点的主机名即可。
配置历史服务器
配置历史服务器
在mapred-site.xml中添加如下配置信息
<!-- 历史服务器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop102:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop102:19888</value>
</property>
配置日志聚集
日志聚集是指应用运行完成以后,将程序运行日志信息上传到HDFS系统上。
日志聚集的好处是可以方便的查看到程序运行详情,方便开发调试。
在yarn-site.xml中添加如下配置信息
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>
<name>yarn.log.server.url</name>
<value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
启动历史服务器命令
mapred --daemon start historyserver
常用端口号
| 端口名称 | Hadoop2.X | Hadoop3.X |
|---|---|---|
| NameNode内部通信端口 | 8020 / 9000 | 8020 / 9000 / 9820 |
| NameNode用户访问端口 | 50070 | 9870 |
| 查看任务执行端口 | 8088 | 8088 |
| 历史服务器端口 | 19888 | 19888 |
本文详细介绍了Hadoop环境的基本配置,包括core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml的配置,以及workers文件的设置。此外,还讲解了如何配置历史服务器,如mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address,并启用了日志聚集功能,便于程序运行日志的查看和管理。最后,列出了Hadoop常用端口号,如NameNode、ResourceManager和历史服务器的端口。
1435

被折叠的 条评论
为什么被折叠?



