搭建 hadoop2 自动切换HA 集群

最新推荐文章于 2022-04-21 15:38:35 发布

weixin_33829657

最新推荐文章于 2022-04-21 15:38:35 发布

阅读量112

点赞数

文章标签：大数据运维 java

原文链接：http://blog.51cto.com/01wang/1656899

版权

hadoop2 比 hadoop1的一些新的功能：

其中HA解决了hadoop1的单点故障问题

1) 各节点：
namenode：master slave3
datanode：slave1 slave2 slave3

journalnode：master slave1 slave3

zookeeper: master slave1 slave3

2)hadoop2 搭建在手工切换ha的集群基础上:

a) 关闭所有启动角色
b) 删除所有机器/usr/local/hadoop/tmp 和 /usr/local/hadoop/logs的内容

3) zookeeper集群安装:

a) master上安装zookeeper
a.1)把conf/zoo_sample.cfg重命名为conf/zoo.cfg mv zoo_sample.cfg zoo.cfg
a.2)修改文件conf/zoo.cfg
1)dataDir=/usr/local/zookeeper/data
2)增加以下内容
server.1=master:2888:3888
---> 标识1 是master对应在zookeeper集群的编号 2888:3888是数据通信端口
server.2=slave1:2888:3888
---> 标识2 是slave1对应在zookeeper集群的编号 2888:3888是数据通信端口
server.3=slave3:2888:3888
---> 标识3 是slave3对应在zookeeper集群的编号 2888:3888是数据通信端口
a.3) mkdir zookeeper/data
[root@master zookeeper]# mkdir data
a.4) 写入文件echo 1到 zookeeper/data/myid 这样在本机master内写上标识1 两者关联起来
[root@master zookeeper]# echo 1 > data/myid
b) 复制zookeeper文件夹到slave1、slave3上
scp -rq zookeeper slave1:/usr/local
scp -rq zookeeper slave3:/usr/local
c) 其余节点写标识
在slave1上执行命令echo 2 zookeeper/data/myid
在slave3上执行命令echo 3 zookeeper/data/myid
d) 启动和验证
在master slave1 slave3上，分别执行命令zookeeper/bin/zkServer.sh start
执行命令zookeeper/bin/zkServer.sh status 可以看到三个节点的状态哪个是leader 哪个是follower
直接开启

4) hdfs配置文件：(hadoop-env.sh、core-site.xml、hdfs-site.xml、slaves)

2.1 配置文件(hadoop-env.sh、core-site.xml、hdfs-site.xml、slaves)
2.1.1 hadoop-env.sh
export JAVA_HOME=/usr/local/jdk
2.1.2 core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://cluster1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
<property>
<name>ha.zookeeper.quorum</name> ------ 配置zk集群
<value>master:2181,slave1:2181, slave3:2181</value>
</property>
2.1.3 hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.nameservices</name> ----每个nameservice对应一个hdfs集群
<value>cluster1</value>
</property>
<property>
<name>dfs.ha.namenodes.cluster1</name>
<value>master,slave3</value>
</property>
<property>
<name>dfs.namenode.rpc-address.cluster1.master</name>
<value>master:9000</value>
</property>
<property>
<name>dfs.namenode.http-address.cluster1.master</name>
<value>master:50070</value>
</property>
<property>
<name>dfs.namenode.rpc-address.cluster1.slave3</name>
<value>slave3:9000</value>
</property>
<property>
<name>dfs.namenode.http-address.cluster1.slave3</name>
<value>slave3:50070</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled.cluster1</name>
<value>true</value>
</property>
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://master:8485;slave1:8485;slave3:8485/cluster1</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/usr/local/hadoop/tmp/journal</value>
</property>
<property>
<name>dfs.ha.fencing.methods</name>
<value>
sshfence
shell(/bin/true)
</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>
<property>
<name>dfs.client.failover.proxy.provider.cluster1</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
2.1.6 slaves -----> 指定NodeManager 和 datanode
slave1
slave2
slave3

5) 删除其他节点的hadoop文件夹，修改好后拷贝到其余节点
scp -r /usr/local/hadoop 其他:/usr/local/

6) 启动hadoop2 hdfs集群

6.1) 格式化zk集群
在master上执行hadoop2.5/bin/hdfs zkfc -formatZK 此操作仅仅表示和zk集群发生关联
15/01/11 18:14:20 INFO ha.ActiveStandbyElector: Successfully created /hadoop-ha/cluster1 in ZK.
3在zookeeper中初始化
$HADOOP_HOME/bin/hdfs zkfc -formatZK
运行这个命令后，会在zookeeper上创建一个/hadoop-ha/mycluster/的znode，用来存放automatic failover的数据
4 启动zkfc(zookeeper failover controller)
需要在namenode1和namenode2上都启动zkfc daemon进程。
$HADOOP_HOME/sbin/hadoop-daemon.sh start zkfc
6.2) 启动journalnode集群
在master、slave1、slave3上分别执行hadoop/sbin/hadoop-daemon.sh start journalnode
6.3) 格式化namenode、启动namenode
在[nn1]上，对其进行格式化，并启动：
在h2master上执行bin/hdfs namenode -format
在h2master上执行sbin/hadoop-daemon.sh start namenode
在[nn2]上，同步nn1的元数据信息：
在h2master2上执行bin/hdfs namenode -bootstrapStandby
在h2master2上执行sbin/hadoop-daemon.sh start namenode
6.4) 启动datanode
在h2master上执行hadoop/sbin/hadoop-daemons.sh start datanode 启动所有datanode节点
此时访问如下链接
http://master:50070/ http://slave3:50070/
两个namenode都是standby状态
6.5) 启动ZKFC (FailoverController) 必须是在namenode节点上启动让zk来决定用哪个namenode作为active
在master、slave3上启动zkfc，执行命令sbin/hadoop-daemon.sh start zkfc
此时访问 http://master:50070/ http://slave3:50070/ 结果如下：
Overview 'master:9000' (active)
Overview 'slave3:9000' (standby)