HA机制hadoop搭建

最新推荐文章于 2021-08-27 14:16:25 发布

Dawn_WL

最新推荐文章于 2021-08-27 14:16:25 发布

阅读量206

点赞数 1

本文链接：https://blog.csdn.net/Dawn_WL/article/details/88527820

版权

HA机制hadoop搭建

1、HA:双机集群系统简称

HA(High Available)，高可用性集群，是保证业务连续性的有效解决方案，一般有两个或两个以上的节点，且分为活动节点及备用节点。通常把正在执行业务的称为活动节点，而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题，导致正在运行的业务（任务）不能正常运行时，备用节点此时就会侦测到，并立即接续活动节点来执行业务。从而实现业务的不中断或短暂中断。

正式引入HA机制是从hadoop2.0开始，之前的版本中没有HA机制。

2、hadoop-HA集群运作机制介绍所谓HA，即高可用（7*24小时不中断服务），实现高可用最关键的是消除单点故障，hadoop-ha严格来说应该分成各个组件的HA机制—HDFS的HA、YARN的HA

3、HDFS的HA机制详解通过双namenode消除单点故障，双namenode协调工作的要点：

A、元数据管理方式需要改变：

- - 1. 内存中各自保存一份元数据
    2. Edits日志只能有一份，只有Active状态的namenode节点可以做写操作
    3. 两个namenode都可以读取edits
    4. 共享的edits放在一个共享存储中管理（qjournal和NFS两个主流实现）

B、需要一个状态管理功能模块

- - 1. 实现了一个zkfailover，常驻在每一个namenode所在的节点
    2. 每一个zkfailover负责监控自己所在namenode节点，利用zk进行状态标识
    3. 当需要进行状态切换时，由zkfailover来负责切换
    4. 切换时需要防止brain split现象的发生

4、高可用集群搭建

集群部署节点角色的规划（7节点）：

主机名	IP	安装的软件	运行的进程
hadoop01	192.168.1.201	jdk、hadoop	NameNode、DFSZKFailoverController(zkfc)
Hadoop02	192.168.1.202	jdk、hadoop	NameNode、DFSZKFailoverController(zkfc)
Hadoop03	192.168.1.203	jdk、hadoop	ResourceManager
hadoop04	192.168.1.204	jdk、hadoop	ResourceManager
Hadoop05	192.168.1.205	jdk、hadoop、zookeeper	DataNode、NodeManager、JournalNode、QuorumPeerMain
Hadoop06	192.168.1.206	jdk、hadoop、zookeeper
hadoop07	192.168.1.207	jdk、hadoop、zookeeper

集群部署节点角色的规划（3节点）：

主机名	IP	安装的软件	运行的进程
hadoop01	192.168.1.201	jdk、hadoop、zookeeper	NameNode、resourcemanager、zkfc、nodemanager、datanode、zookeeper、journalNode
Hadoop02	192.168.1.202
hadoop03	192.168.1.203		nodemanager、datanode、zookeeper、journalNode

1. linux系统准备
  1. ip地址配置
  2. hostname配置
  3. hosts映射配置
  4. 防火墙关闭
  5. sudoers加入hadoop用户
  6. ssh免密登陆配置
2. java环境的配置
  1. 上传jdk，解压，修改/etc/profile
3. hadoop集群部署
  1. 上传hadoop，解压，修改/etc/profile
4. zookeeper集群的部署
5. 修改core-site.xml

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/home/dawn/usr/app/hadoop/tmp</value>

</property>

<name>ha.zookeeper.quorum</name> <value>weekend05:2181,weekend06:2181,weekend07:2181</value>

</property>

</configuration>

6.修改hdfs-site.xml

<name>dfs.nameservices</name>

</property>

<name>dfs.ha.namenodes.bi</name>

</property>

<name>dfs.namenode.rpc-address.bi.nn1</name>

<value>hadoop01:9000</value>

</property>

<name>dfs.namenode.http-address.bi.nn1</name>

<value>hadoop01:50070</value>

</property>

<name>dfs.namenode.rpc-address.bi.nn2</name>

<value>hadoop02:9000</value>

</property>

<name>dfs.namenode.http-address.bi.nn2</name>

<value>hadoop02:50070</value>

</property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://hadoop01:8485;hadoop02:8485;hadoop03:8485/bi</value>

</property>

<name>dfs.journalnode.edits.dir</name>

<value>/home/dawn/journaldata</value>

</property>

<name>dfs.ha.automatic-failover.enabled</name>

</property>

<name>dfs.client.failover.proxy.provider.bi</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<name>dfs.ha.fencing.methods</name>

<value>

sshfence

shell(/bin/true)

</value>

</property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

</property>

<name>dfs.ha.fencing.ssh.connect-timeout</name>

</property>

</configuration>

7.修改mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

8.修改yarn-site.xml

<name>yarn.resourcemanager.ha.enabled</name>

</property>

<name>yarn.resourcemanager.cluster-id</name>

</property>

<name>yarn.resourcemanager.ha.rm-ids</name>

</property>

<name>yarn.resourcemanager.hostname.rm1</name>

<value>hadoop01</value>

</property>

<name>yarn.resourcemanager.hostname.rm2</name>

<value>hadoop02</value>

</property>

<name>yarn.resourcemanager.zk-address</name>

<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

9.修改slaves（3台机器不用修改，上面例子中7台机器需要配置，slaves是指定子节点的位置，因为要在hadoop01上启动HDFS、在hadoop03启动yarn，所以hadoop01上的slaves文件指定的是datanode的位置，hadoop03上的slaves文件指定的是nodemanager的位置，都是5、6、7三台机器)

5、HA启动步骤

严格按照以下步骤进行启动（以7台机器为例）：

1、启动zookeeper集群（分别在hadoop05、hadoop06、hadoop07上启动zk）

$/hadoop/zookeeper-3.4.5/bin/zkServer.sh start

#查看状态：一个leader，两个follower

./zkServer.sh status

2、启动journalnode（分别在在hadoop05、hadoop06、hadoop07上执行）

/hadoop/hadoop-2.6.4/sbin/hadoop-daemon.sh start journalnode

#运行jps命令检验，hadoop05、hadoop06、hadoop07上多了JournalNode进程

3、格式化HDFS

#在mini1上执行命令:

hdfs namenode -format

#格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件，这里配置的是/hadoop/hadoop-2.6.5/tmp，然后将/hadoop/hadoop-2.6.5/tmp拷贝到hadoop02的/hadoop/hadoop-2.6.5/下。

scp -r tmp hadoop02:/home/dawn/usr/app/hadoop/

##也可以这样，使用hdfs namenode –bootstrapStandby

4、格式化ZKFC(在hadoop01上执行一次即可)

hdfs zkfc –formatZK

可以在zookeeper上执行zkCli.sh，进入后通过ls / 查看是否增加了hadoop-ha节点。

5、启动HDFS(在mini1上执行)

sbin/start-dfs.sh

6、启动YARN(#####注意#####：是在hadoop03上执行start-yarn.sh，把namenode和resourcemanager分开是因为性能问题，因为他们都要占用大量资源，所以把他们分开了，他们分开了就要分别在不同的机器上启动)

sbin/start-yarn.sh

hadoop04上要单独启动yarn，yarn-daemon.sh start resourcemanager

6、验证

验证HDFS 首先向hdfs上传一个文件 hadoop fs -put /etc/profile /profile hadoop fs -ls / 然后再kill掉active的NameNode： kill -9 <pid of NN> 通过浏览器访问：http://192.168.79.129:50070 NameNode 'hadoop01:9000' (active) 这个时候hadoop01上的NameNode变成了active 在执行命令：hadoop fs -ls / -rw-r--r-- 3 root supergroup 1926 2014-02-06 15:36 /profile 刚才上传的文件依然存在！！！手动启动那个挂掉的NameNode sbin/hadoop-daemon.sh start namenode 通过浏览器访问：http://192.168.79.111:50070 NameNode 'hadoop02:9000' (standby)

验证YARN 运行一下hadoop提供的demo中的WordCount程序： hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar wordcount /profile /out

Dawn_WL

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HA机制hadoop搭建

HA机制hadoop搭建1、HA:双机集群系统简称HA(High Available)，高可用性集群，是保证业务连续性的有效解决方案，一般有两个或两个以上的节点，且分为活动节点及备用节点。通常把正在执行业务的称为活动节点，而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题，导致正在运行的业务（任务）不能正常运行时，备用节点此时就会侦测到，并立即接续活动节点来执行业务。从而实现业务...
复制链接

扫一扫