Hadoop HA的部署

最新推荐文章于 2024-07-31 22:44:40 发布

BestbpF

最新推荐文章于 2024-07-31 22:44:40 发布

阅读量344

点赞数

分类专栏： Hadoop 文章标签： hadoop hdfs namenode 集群备份

本文链接：https://blog.csdn.net/qq_34764487/article/details/78087836

版权

Hadoop 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

背景：

Hadoop2.0之前，在HDFS集群中NameNode存在单点故障问题，对于只有一个NameNode的集群，如果NameNode机器出现问题，则整个集群将无法使用，直到NameNode重新启动。
NameNode主要在以下两个方面影响HDFS集群：

1. NameNode机器发生意外，如宕机，集群将无法使用，需要管理员重启
2. NameNode机器需要升级，包括软件、硬件升级，此时集群也无法使用

HDFS HA功能通过配置Activity/Standby两个NameNode实现在集群中对NameNode的热备份来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可以通过这种方式将NameNode很快的切换到另外一台机器。

设计思想：

配置（在基础的Hadoop配置文件中加以修改）：

hdfs-site.xml ：

设置一个命名空间，在命名空间内设置namenode.

<property>
  <name>dfs.nameservices</name>
  <value>mycluster</value>
</property>

设置namenode

<property>
  <name>dfs.ha.namenodes.mycluster</name>
  <value>nn1,nn2</value>
</property>

分别配置两个namenode(地址)

<property>
  <name>dfs.namenode.rpc-address.mycluster.nn1</name>
  <value>machine1.example.com:8020</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn2</name>
  <value>machine2.example.com:8020</value>
</property>

配置50070网页访问端口

<property>
  <name>dfs.namenode.http-address.mycluster.nn1</name>
  <value>machine1.example.com:50070</value>
</property>
<property>
  <name>dfs.namenode.http-address.mycluster.nn2</name>
  <value>machine2.example.com:50070</value>
</property>
配置共享日志节点存放namenode元数据相关信息（两个namenode的元数据保持内容一致）

<property>
  <name>dfs.namenode.shared.edits.dir</name>
  <value>qjournal://node1.example.com:8485;node2.example.com:8485;node3.example.com:8485/mycluster</value>
</property>
配置日志文件的目录
<property>
  <name>dfs.journalnode.edits.dir</name>
  <value>/path/to/journal/node/local/data</value>
</property>
配置客户端（客户端访问namenode时通过一个代理，会自动访问处于activity状态的namenode）

<property>
  <name>dfs.client.failover.proxy.provider.mycluster</name>
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
配置一种隔离方式，保证一同一时刻只有一个namenode对外提供服务（需要两个namenode之间可以互相免密码登陆）

<property>
  <name>dfs.ha.fencing.methods</name>
  <value>sshfence</value>
</property>

<property>
  <name>dfs.ha.fencing.ssh.private-key-files</name>
  <value>/home/exampleuser/.ssh/id_rsa</value>
</property>
此时可以删除原来的secondanamenode和replication配置了。

core-site.xml ：

修改fs.defaultFS为：

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://mycluster</value>
</property

启动：
  
  
   
   在各个JournalNode节点上启动journalNode服务: sbin/hadoop-daemon.sh start journalnode
在nn1上进行格式化，然后启动：bin/hdfs namenode -format     hadoop-daemon.sh start namenode
在nn2上同步nn1的元数据信息：bin/hdfs namenode -bootstrapStandby
启动nn2：hadoop-daemon.sh start namenode（此时两个namenode都处于standby状态）
将nn1切换为active：bin/hdfs haadmin -transitionToActive nn1
逐个启动datanode hadoop-daemon.sh start datanode


上面是手动切换namenode，这里我们继续配置自动故障转移（利用zookeeper）

配置自动故障转移：
  
  
   
   在hdfs-site.xml中添加配置，开启自动故障转移
  
  
  
  
   
   
   
    <property>
   <name>dfs.ha.automatic-failover.enabled</name>
   <value>true</value>
 </property>在core-site.xml中添加配置。
  
  
  
  
   
   自动故障转移依赖于一个zookeeper集群来实现监听等功能
  
  
  
  
   
   
   
    <property>
   <name>ha.zookeeper.quorum</name>
   <value>zk1.example.com:2181,zk2.example.com:2181,zk3.example.com:2181</value>
 </property>
   
   
    
    

   
   
   
   启动：
   
   
    
    关闭所有hdfs服务：sbin/stop-dfs.sh
各节点启动zookeeper集群：bin/zkServer.sh start
初始化HA在zookeeper集群中的状态：bin/hdfs zkfc -formatZK
启动HDFS服务：sbin/start-dfs.sh
    
    验证：
    
    
     
     kill掉处于active状态的namenode：kill -9 pid
刷新网页客户端会看到另一个原本为standby状态的namenode自动切换为active状态

BestbpF

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop HA的部署

背景：Hadoop2.0之前，在HDFS集群中NameNode存在单点故障问题，对于只有一个NameNode的集群，如果NameNode机器出现问题，则整个集群将无法使用，直到NameNode重新启动。NameNode主要在以下两个方面影响HDFS集群：NameNode机器发生意外，如宕机，集群将无法使用，需要管理员重启NameNode机器需要升级，包括软件、硬件升级，
复制链接

扫一扫

专栏目录