Hadoop分布式集群的搭建（Apache 版本）下

最新推荐文章于 2022-08-17 08:44:08 发布

super-yong

最新推荐文章于 2022-08-17 08:44:08 发布

阅读量218

点赞数

分类专栏：大数据专栏预写大数据开发学习

本文链接：https://blog.csdn.net/superme_yong/article/details/86524442

版权

本文详细介绍了如何部署Apache Hadoop分布式集群，包括节点分布、common、HDFS、YARN和MapReduce模块的配置，并提供了测试步骤。在配置过程中，强调了NameNode、DataNode、ResourceManager和NodeManager的角色分配，以及如何通过SSH免密钥分发和启动HDFS和YARN进程。

摘要由CSDN通过智能技术生成

部署Hadoop：

在配置之前首先要确定我们的集群节点的分布：

节点分布：

hdfs的节点：主节点：NameNode；从节点：DataNode；
yarn的节点：主节点：ResourceManager；从节点：NodeManager ；

bigdata-01.superyong.com      NodeManager      DataNode      NameNode（active）
bigdata-02.superyong.com   NodeManager DataNode NameNode（standby）
bigdata-03.superyong.com   NodeManager DataNode ResourceManager

备注：高可用配置会在配置安装zookeeper时配置。

接下来我会按照hadoop的模块分布来配置，在这之前需要将hadoop的环境配置完成，在Hadoop分布式集群的搭建（Apache 版本）上中有写到。

common模块：

core-site.xml

<configuration>

    <!--指定 HDFS 的 NameNode 运行主机名和端口号-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://bigdata-01.superyong.com:8020</value>
    </property>
    
    <!--指定 HDFS 本地临时存储目录，默认linuxn系统的 /tmp 目录-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/modules/hadoop-2.7.3/data/tmpData</value>
    </property>
    
</configuration>

HDFS模块：

hdfs-site.xml

<configuration>

   <!-- HDFS 会将文件分为多个块，每个块会默认保存三份副本，在这里就可以配置块的存储个数-->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>

   <!--hdfs是主从架构，主节点在哪里运行就是在这里指定的，从节点在slaves文件中指定 -->
   <!-- 指定secondarynamenode在哪台机器上运行，一般和namenode在同一台机器上，协助namenode工作-->
    <property>
        <name>dfs.namenode.sec