搭建High Availability(HA)集群使用 the Quorum Journal Manager(QJM)

一、手动HA

1、如果是创建全新的HA集群,请先完成这篇博客的前18步。

2、修改core-site.xml

<property>
	<name>fs.defaultFS</name>
	<value>hdfs://mycluster</value>
</property>
<property>
  	<name>hadoop.tmp.dir</name>
	<value>/home/sweeney/soft/tmp</value>
</property>
<property>
	<name>dfs.journalnode.edits.dir</name>
	<value>/home/sweeney/soft/tmp/journalnode</value>
</property>

3、修改hdfs-site.xml

<property>
    <!-- 此新名称服务的逻辑名称 -->
	<name>dfs.nameservices</name>
	<value>mycluster</value>
</property>
<property>
    <!--配置逗号分隔的NameNode ID列表-->
	<name>dfs.ha.namenodes.mycluster</name>
	<value>nn1,nn2</value>
</property>
<property>
	<name>dfs.namenode.rpc-address.mycluster.nn1</name>
	<value>master:9000</value>
</property>
<property>
	<name>dfs.namenode.rpc-address.mycluster.nn2</name>
	<value>slave1:9000</value>
</property>
<property>
	<name>dfs.namenode.http-address.mycluster.nn1</name>
	<value>master:50070</value>
</property>
<property>
	<name>dfs.namenode.http-address.mycluster.nn2</name>
	<value>slave1:50070</value>
</property>
<property>
    <!--这是一个配置JournalNodes地址的地方,它提供共享编辑存储-->
	<name>dfs.namenode.shared.edits.dir</name>
	<value>qjournal://master:8485;slave1:8485;slave2:8485/mycluster</value>
</property>
<property>
    <!--配置Java类的名称,DFS客户端将使用该名称来确定哪个NameNode是当前的Active,以及哪个NameNode当前正在为客户端请求提供服务。-->
	<name>dfs.client.failover.proxy.provider.mycluster</name>
	<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
    <!--SSH到Active NameNode并终止进程-->
	<name>dfs.ha.fencing.methods</name>
	<value>sshfence</value>
</property>
<property>
    <!--该选项是以逗号分隔的SSH私钥文件列表-->
	<name>dfs.ha.fencing.ssh.private-key-files</name>
	<value>/home/sweeney/.ssh/id_rsa</value>
</property>

4、(新集群请跳到下面第6步)如果你已经格式化了NameNode,或者正在将启用了HA的集群转换为启用HA,则应该通过运行命令“ hdfs namenode bootstrapStandby ”将NameNode元数据目录的内容复制到另一个未格式化的NameNode上。

hadoop-daemon.sh start namenode
hdfs namenode bootstrapStandby(执行此命令前,请确保namenode是在运行状态)

5、如果要将非HA NameNode转换为HA,则应运行命令“ hdfs namenode -initializeSharedEdits ”,该命令将使用来自本地NameNode编辑目录的编辑数据初始化JournalNodes。

hadoop-daemon.sh stop namenode
hdfs namenode -initializeSharedEdits(执行此命令前,请确保nomenode停止运行)

6、如果是新集群,请忽略4、5步,回到此篇博客的第21步,后面步骤基本一致。只有第25步,在格式化之前,先在每个节点上启动journalnode。

hadoop-daemon.sh start journalnode

7、无论是新集群还是从非HA转HA,执行完上述步骤,手动HA就搭建完成了。然后我们需要测试。

把其中一个namenode切换成活跃的(先在web中查看两个namenode的状态)
hdfs haadmin -transitionToActive nn1
测试上传文件是否成功

二、自动HA 。

1、先在所有节点上安装ZooKeeper,参照博客

2、在zookeeper的conf目录下,修改zoo.cfg(没有此文件,请将zoo_sample.cfg拷贝一份)配置文件。

		tickTime=2000
		dataDir=/home/sweeney/soft/tmp/zookeeper
		clientPort=2181
		initLimit=5
		syncLimit=2
		server.1=master:2888:3888
		server.2=slave1:2888:3888
		server.3=slave2:2888:3888

3、将zoo.cfg文件发送到其他节点。

scp ~/soft/zoo/conf/zoo.cfg sweeney@slave1:~/soft/zoo/conf/

4、每台机器运行一次zkServer.sh start,如果无法启动,请在每台节点配置的dataDir目录下,执行下面命令。

echo "1" >> myid (注意1是配置文件中给的id   server.1=master:2888:3888)

5、再次在每台机器上运行zkServer.sh start,然后验证zkCli.sh命令是否成功。

zkCli.sh

6、在上述手动HA中在core-site.xml追加

<property>
	<name>ha.zookeeper.quorum</name>
	<value>master:2181,slave1:2181,slave2:2181</value>
</property>

在hdfs-site.xml中追加 

<property>
	<name>dfs.ha.automatic-failover.enabled</name>
	<value>true</value>
</property>

7、在每台机器上启动zookeeper

zkServer.sh start

8、在每台机器上启动journalnode

hadoop-daemon.sh start journalnode

9、在其中一台namenode上格式化

hdfs namenode -format

 10、格式化后会生成tmp文件夹,发送给另外一个namenode

scp -r ~/soft/tmp sweeney@slave1:~/soft/tmp

11、在格式化完的那台namenode上格式化zkfc

hdfs zkfc -formatZK

 12、在未格式化的namenode上同步数据

hdfs namenode -bootstrapStandby

13、启动集群

start-dfs.sh

如果在配置之前就已经启动了集群,则使用以下命令单独开启zkfc守护进程

hadoop-daemon.sh start zkfc

14、测试,使用下面命令杀死状态为active的namenode进程,然后在web界面查看另一个namenode状态是否变为active。

kill -9 namenode的进程id

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop High Availability (HA) 集群是为了提高Apache Hadoop集群的可靠性和可用性而设计的一种架构。它通过将关键服务(如NameNode和JobTracker)冗余部署,并在主节点故障时自动切换到备用节点,保证了数据处理任务的持续进行。下面是Hadoop HA集群搭建的基本步骤: 1. **安装并配置Hadoop**: - 安装Hadoop到两个或更多节点上,每个节点都是一个独立的Hadoop集群实例。 - 配置`core-site.xml`和`hdfs-site.xml`文件,设置集群的名称节点(NameNode)和数据节点(DataNodes)。 2. **启用HDFS HA**: - 在`hdfs-site.xml`中,设置`ha.fencing.methods`指定节点之间的心跳检测方法,例如SSH或JMX。 - 创建一个HDFS HA配置文件,如`core-site.xml.template`,并在实际集群中创建对应的配置文件。 3. **配置高可用NameNode**: - 设置`ha.zookeeper.quorum`为ZooKeeper集群地址,用于选举新的Active NameNode。 - 配置`dfs.nameservice.id`定义NameNode服务名。 - 在`hdfs-site.xml`中启用`dfs.ha.namenodes.<nameservice-id>`属性。 4. **设置Secondary NameNode**: - 在`hdfs-site.xml`中启用`dfs.ha.automatic-failover.enabled`,并配置`dfs.ha.automatic-failover.retry-interval`和`dfs.ha.automatic-failover.timeout`。 5. **配置ZooKeeper**: - 如果没有使用ZooKeeper,需要配置一个或多个ZooKeeper服务器作为NameNode服务选举的协调器。 6. **启动HDFS服务**: - 启动HDFS集群,包括两个NameNode(一个为主,一个为备)和足够的DataNodes。 7. **验证集群状态**: 使用`hdfs haadmin`命令检查集群状态、启动/关闭心跳检测和手动触发Failover。 8. **配置YARN HA**: 对于YARN资源管理器,类似地,需要配置ResourceManager HA(RMHA),并设置HA模式。 9. **测试和监控**: 确保服务可用,执行负载测试,并设置监控工具(如Hadoop Metrics2或Ganglia)来监控性能和异常。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值