高可用的具体配置
1.可以直接在我么之前的hadoop集群中进行;最好是我们重新搭建一个集群来进行;因为之前的集群还要使用;
1. 克隆服务器
2.通过拷贝我们的 hadoop01; hadoop02;hadoop03; 分布为我们的ha01;ha02;ha03;
3.克隆完毕之后的操作:
1.修改机器的ip地址:我们从150; 160;170;开始;
vi /etc/sysconfig/network-scripts/ifcfg-eno16777736 //默认网卡都是这个名字
其他两台也是同样的方法修改他的ip地址即可;
2.修改机器的名字: hostnamectl set-hostname ha01
同样的方法对其他两台机器修改名字 ha02; ha03
3.删除多余的网卡:centos 6克隆之后需要删除 第一个pci ;centos7 不需要
如果我们使用的是centos7的话,直接就进行1;2步就可以了;
2.检查服务器信息—启动zookeeper
1.检查服务的防火墙和时间;
2.修改zookeeper的配置:显示启动不了;因为他的服务器的名字修改了;
修改:/usr/local/zookeeper-3.4.6/conf/zoo.cfg
3.修改ip地址和名字的映射
然后就可以启动我们的zookeeper了;
最好是重启服务器; 不然有的时候会出现问题; 是我们的服务器可能启动了zookeeper的服务;
要不就的使用kill -9 进行杀死进程;
3.配置hadoop集群—启动hadoop集群操作
1.修改hadoop的配置文件:/usr/local/hadoop-2.7.3/etc/hadoop/core-site.xml
分别修改三台服务中的信息core-site.xml文件中的信息;
vi /usr/local/hadoop-2.7.3/etc/hadoop/core-site.xml
修改1: 拷贝的是hadoop01 修改为ha01
fs.defaultFS hdfs://ha01:9000这个文件中就修改这一个即可;
修改2:hdfs-site.xml
vi /usr/local/hadoop-2.7.3/etc/hadoop/hdfs-site.xml
修改他的最后标签中的内容:
dfs.secondary.http.address ha01:50090修改3:vi yarn-site.xml
vi /usr/local/hadoop-2.7.3/etc/hadoop/ yarn-site.xml
修改标签内容:
yarn.resourcemanager.hostname ha01 把以前的hadoop01修改为ha01修改4:vi slaves
vi /usr/local/hadoop-2.7.3/etc/hadoop/slaves
2.删除以前服务器中的数据: rm -rf /usr/local/hadoop-2.7.3/data/
3.因为他们是改变了名字的集群服务器,所以第一次需要进行初始化;hadoop namenode -format
但是只需要在第一个服务ha01的服务上进行即可;不需要在其他的ha02和ha03上进行;
4.启动ha的集群 start-all.sh;
但是会出错;这个原因是我们之前生成的 免密登录; ssl文件是原先的不是现在的;
提示没有进行数字签名;(这里的免密是以前生成的文件,在这边就不能使用;还的重新生成)
- 删除以前的免密文件:
2.重新生成:(三台机器都进行生成)
回车三次即可生成:(三台上都进行)
图形界面查看到的ssh刚刚生成;
3.分别发送密码给集群中的每个机器;ssh-copy-id ha01( ha02;ha03)
输入yes,然后输入统一的一个密码----123456
再次启动(集群)即可:start-all.sh
到这里就是我们的hadoop集群就可以启动了;
http://192.168.219.150:50070/dfshealth.html#tab-overview
停掉上面的集群后,就可以配置高可用了;
4.配置高可用hadoop
hadoop部分的配置分为两部分hdfs和yarn 需要对他们 进行修改;
1.对HDFS的修改;
1.1修改三台服务中文件:core-site.xml
修改core-site.xml(如果文件不存在,但是core-site.xml.template文件存在,则先修改文件名,执行mv core-site.xml.template core-site.xml)
vi /usr /local/hadoop-2.7.3/etc/hadoop/core-site.xml
修改内容:(删除以前的configuration)
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://beh</value>
<final>false</final>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoopdata</value>
<final>false</final>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>ha01:2181,ha02:2181,ha03:2181</value>
<final>false</final>
</property>
</configuration>
修改后的内容:全部粘贴到每个服务(3)即可;
1.2 修改hdfs-site.xml
vi /usr/local/hadoop-2.7.3/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.nameservices</name>
<value>beh</value>
<final>false</final>
</property>
<property>
<name>dfs.ha.namenodes.beh</name>
<value>nn1,nn2</value>
<final>false</final>
</property>
<property>
<name>dfs.namenode.rpc-address.beh.nn1</name>
<value>ha01:9000</value>
<final>false</final>
</property>
<property>
<name>dfs.namenode.http-address.beh.nn1</name>
<value>ha01:50070</value>
<final>false</final>
</property>
<property>
<name>dfs.namenode.rpc-address.beh.nn2</name>
<value>ha02:9000</value>
<final>false</final>
</property>
<property>
<name>dfs.namenode.http-address.beh.nn2</name>
<value>ha02:50070</value>
<final>false</final>
</property>
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://ha01:8485;ha02:8485;ha03:8485/beh</value>
<final>false</final>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled.beh</name>
<value>true</value>
<final>false</final>
</property>
<property>
<name>dfs.client.failover.proxy.provider.beh</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
<final>false</final>
</property>
<property>
<name>dfs.journalnode.edits .dir</name>
<value>/usr/local/metadata/journal</value>
<final>false</final>
</property>
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence
shell(/bin/true)
</value>
<final>false</final>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/usr/local/.ssh/id_rsa</value>
<final>true</final>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
<final>false</final>
</property>
<configuration>
1.3 修改slaves
vi /usr/local/hadoop-2.7.3/etc/hadoop/slaves
修改为以下内容:(如果以后有多个节点就继续修改)
ha02
ha03
我们这个里边提前进行了修改;这个地方就不需要了;
1.4 YARN
修改mapred-site.xml
vi /usr/local/hadoop2.7.3/etc/hadoop/mapred-site.xml
删除原先的直接替换即可:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>ha02:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>ha03:19888</value>
</property>
<property>
<name>yarn.app.mapreduce.am.staging-dir</name>
<value>/usr/local/metadata/hadoop-yarn/staging</value>
</property>
</configuration>
1.5 修改yarn-site.xml
vi /usr/local/hadoop2.7.3/etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value>/usr/local/metadata/yarn</value>
</property>
<property>
<name>yarn.nodemanager.log-dirs</name>
<value>/usr/local/logs/yarn/userlogs</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<description>Where to aggregate logs</description>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>hdfs://beh/var/log/hadoop-yarn/apps</value>
</property>
<!-- Resource Manager Configs -->
<property>
<name>yarn.resourcemanager.connect.retry-interval.ms</name>
<value>2000</value>
</property>
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>beh</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<!--RM1 RM2 is different-->
<property>
<name>yarn.resourcemanager.ha.id</name>
<value>rm1</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
</property>
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
<property>
<name>yarn.resourcemanager.zk.state-store.address</name>
<value>ha01:2181,ha02:2181,ha03:2181</value>
</property>
<property>
<name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name>
<value>5000</value>
</property>
<!-- RM1 configs -->
<property>
<name>yarn.resourcemanager.address.rm1</name>
<value>ha01:23140</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm1</name>
<value>ha01:23130</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.https.address.rm1</name>
<value>ha01:23189</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.rm1</name>
<value>ha01:23188</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm1</name>
<value>ha01:23125</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address.rm1</name>
<value>ha01:23141</value>
</property>
<!-- RM2 configs -->
<property>
<name>yarn.resourcemanager.address.rm2</name>
<value>ha02:23140</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm2</name>
<value>ha02:23130</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.https.address.rm2</name>
<value>ha02:23189</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.rm2</name>
<value>ha02:23188</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm2</name>
<value>ha02:23125</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address.rm2</name>
<value>ha02:23141</value>
</property>
<!-- Node Manager Configs -->
<property>
<name>mapreduce.shuffle.port</name>
<value>23080</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>ha01:2181,ha02:2181,ha03:2181</value>
</property>
</configuration>
1.6 修改环境变量:
vim /usr/local/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
vim /usr/local/hadoop-2.7.3/etc/hadoop/yarn-env.sh
他默认使用的是1.6的jdk;我们改写成我们自己安装的1.8jdk;
到这里就修改的地方都修改完毕; 然后如果是在一个上修改的就分发给所有服务器;
scp -r /usr/local/hadoop-2.7.3 ha02:/usr/local
scp -r /usr/local/hadoop-2.7.3 ha03:/usr/local
但是我们这里是在每个机器上都同时进行了就不需要了;
接下来就可以进行启动高可用;
2.启动高可用HDFS
1.启动journalnode(进程名:JournalNode) 在三台机器上都启动文件共享; 以后有多台也是一样都进行启动;
启动journalnode(进程名:JournalNode) 注意:三个都要启动
hadoop-daemon.sh start journalnode
那就把ha01里边的文件分发到 ha02;和ha03中去: 配置文件发到对应的服务中即可;
或者粘贴这些到ha02;ha03
#Configure environment variables for cluster environment
export JAVA_HOME=/usr/local/java/jdk1.8.0_291
export HADOOP_HOME=/usr/local/hadoop-2.7.3
export ZOOKEEPER_HOME=/usr/local/zookeeper-3.4.6
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin
如果这个地方出现第一次成功了;第二次就没有节点了; 就是前面的配置错了;
一定要小心,配置文件时候,不能有空格;一定要小心;
- 格式化zookeeper,在ha01上执行
hdfs zkfc -formatZK
但是一定要先把我们的zookeeper集群开启;不然进行格式化就有问题:(连接不上)
启动zookeeper就可以连接:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NMFvCsOD-1629340840753)(https://i.loli.net/2021/08/15/sejvE2DA7dfBTZw.png)]
这个时候三台机器上都启动了;
- 对ha01节点进行格式化和启动启动namenode(进程名:NameNode):
hdfs namenode -format 以前是我们原始集群格式化; 现在是对高可用进行格式化;不一样;
hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start namenode (没有配置环境变量就到sbin下执行)
hdfs namenode -format 以前是我们原始集群格式化; 现在是对高可用进行格式化;不一样;
hadoop-daemon.sh start namenode 启动namenode
4.对ha02节点进行格式化和启动(双namenode机制)
hdfs namenode -bootstrapStandby (后备节点)
hadoop-daemon.sh start namenode(他是ha01的后备节点 所以要开启 namenode)
5.在ha01和ha02上启动zkfc服务控制器(zkfc服务进程名:DFSZKFailoverController):此时ha01和ha02就会有一个节点变为active状态
hadoop-daemon.sh start zkfc
6.启动datanode(进程名:DataNode):在ha01上执行
hadoop-daemons.sh start datanode
到这里我们所有的节点都启动成功; 就可以用了;
在这里如果你要启动其他的服务;就的手工启动: resourcesmanager;和nodemanager
测试:http://192.168.219.150:50070/dfshealth.html#tab-overview
他现在处于活动状态; 当他死亡的时候,就会切换到 160服务上进行;
160现在处于 备用状态:
http://192.168.219.160:50070/dfshealth.html#tab-overview
如果我们把第一个节点停掉:
访问第一个节点就不能访问了;
但是备用就会冲上来进行提供服务:
如果你再次启动你的他也是备用状态;不可能抢占原来的; 只能等待这个第二个挂了他才能接替;
扩展1: 启动yarn
在hadoop1上启动(此脚本将会启动hadoop1上的resourcemanager及所有的nodemanager)
start-yarn.sh
在hadoop2上启动resourcemanager
yarn-daemon.sh start resourcemanager
扩展2: 验证是否配置成功
打开浏览器,访问http://192.168.219.150:23188/或者http://192.168.219.160:23188/,根据你的启动yarn的服务来进行访问。ha01上启动的;
然后kill掉active的resourcemanager另一个将会变为active的,说明resourcemanager HA是成功的
备注:
Hadoop-daemon.sh:用于启动当前节点的进程
例如Hadoop-daemon.sh start namenode 用于启动当前的名称节点
Hadoop-daemons.sh:用于启动所有节点的进程
例如:Hadoop-daemons.sh start datanode 用于启动所有节点的数据节点