Hadoop HA的部署

背景:

  • Hadoop2.0之前,在HDFS集群中NameNode存在单点故障问题,对于只有一个NameNode的集群,如果NameNode机器出现问题,则整个集群将无法使用,直到NameNode重新启动。
  • NameNode主要在以下两个方面影响HDFS集群:
    1. NameNode机器发生意外,如宕机,集群将无法使用,需要管理员重启
    2. NameNode机器需要升级,包括软件、硬件升级,此时集群也无法使用
  • HDFS HA功能通过配置Activity/Standby两个NameNode实现在集群中对NameNode的热备份来解决上述问题。如果出现故障,如机器崩溃或机器需要升级维护,这时可以通过这种方式将NameNode很快的切换到另外一台机器。

设计思想:

   

配置(在基础的Hadoop配置文件中加以修改):

hdfs-site.xml :
设置一个命名空间,在命名空间内设置namenode.
<property>
  <name>dfs.nameservices</name>
  <value>mycluster</value>
</property>
设置namenode
<property>
  <name>dfs.ha.namenodes.mycluster</name>
  <value>nn1,nn2</value>
</property>
分别配置两个namenode(地址)
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn1</name>
  <value>machine1.example.com:8020</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn2</name>
  <value>machine2.example.com:8020</value>
</property>
配置50070网页访问端口
<property>
  <name>dfs.namenode.http-address.mycluster.nn1</name>
  <value>machine1.example.com:50070</value>
</property>
<property>
  <name>dfs.namenode.http-address.mycluster.nn2</name>
  <value>machine2.example.com:50070</value>
</property>
配置共享日志节点存放namenode元数据相关信息(两个namenode的元数据保持内容一致)
<property>
  <name>dfs.namenode.shared.edits.dir</name>
  <value>qjournal://node1.example.com:8485;node2.example.com:8485;node3.example.com:8485/mycluster</value>
</property>
配置日志文件的目录
<property>
  <name>dfs.journalnode.edits.dir</name>
  <value>/path/to/journal/node/local/data</value>
</property>
配置客户端(客户端访问namenode时通过一个代理,会自动访问处于activity状态的namenode)
<property>
  <name>dfs.client.failover.proxy.provider.mycluster</name>
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
配置一种隔离方式,保证一同一时刻只有一个namenode对外提供服务(需要两个namenode之间可以互相免密码登陆)
<property>
  <name>dfs.ha.fencing.methods</name>
  <value>sshfence</value>
</property>

<property>
  <name>dfs.ha.fencing.ssh.private-key-files</name>
  <value>/home/exampleuser/.ssh/id_rsa</value>
</property>
此时可以删除原来的secondanamenode和replication配置了。

core-site.xml :

修改fs.defaultFS为:
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://mycluster</value>
</property

启动:

  1. 在各个JournalNode节点上启动journalNode服务: sbin/hadoop-daemon.sh start journalnode
  2. 在nn1上进行格式化,然后启动:bin/hdfs namenode -format hadoop-daemon.sh start namenode
  3. 在nn2上同步nn1的元数据信息:bin/hdfs namenode -bootstrapStandby
  4. 启动nn2:hadoop-daemon.sh start namenode(此时两个namenode都处于standby状态)
  5. 将nn1切换为active:bin/hdfs haadmin -transitionToActive nn1
  6. 逐个启动datanode hadoop-daemon.sh start datanode

上面是手动切换namenode,这里我们继续配置自动故障转移(利用zookeeper)

配置自动故障转移:

在hdfs-site.xml中添加配置,开启自动故障转移
 <property>
   <name>dfs.ha.automatic-failover.enabled</name>
   <value>true</value>
 </property>
在core-site.xml中添加配置。
自动故障转移依赖于一个zookeeper集群来实现监听等功能
 <property>
   <name>ha.zookeeper.quorum</name>
   <value>zk1.example.com:2181,zk2.example.com:2181,zk3.example.com:2181</value>
 </property>

启动:

  1. 关闭所有hdfs服务:sbin/stop-dfs.sh
  2. 各节点启动zookeeper集群:bin/zkServer.sh start
  3. 初始化HA在zookeeper集群中的状态:bin/hdfs zkfc -formatZK
  4. 启动HDFS服务:sbin/start-dfs.sh

验证:

  1. kill掉处于active状态的namenode:kill -9 pid
  2. 刷新网页客户端会看到另一个原本为standby状态的namenode自动切换为active状态








  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值