HA部署

最新推荐文章于 2024-12-01 00:26:03 发布

原创最新推荐文章于 2024-12-01 00:26:03 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。

大数据专栏收录该内容

26 篇文章

订阅专栏

本文详细介绍了Hadoop HDFS和YARN HA的配置步骤，包括核心配置文件的设置、集群部署流程、自动容灾的实现方式及注意事项。特别强调了通过Zookeeper进行状态跟踪的重要性。

1.hdfs容灾配置

HA配置

core-site.xml

	 <property>
        <name>fs.defaultFS</name>
        <value>hdfs://mycluster</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name> 
        <value>/home/cj/opt/app/hadoop-2.7.3/data/tmp</value>
    </property>
   <property>
        <name>topology.node.switch.mapping.impl</name> 
        <value>com.cj.rackaware.MyRackAware</value>
    </property>
	<property>
        <name>hadoop.proxyuser.root.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.root.groups</name>
        <value>*</value>
    </property>

hdfs-site.xml (主要选择Journalnode集群部署的主机等)

<configuration>

     <property>
			<name>dfs.nameservices</name>
			<value>mycluster</value>
		</property>
		

		<property>
			<name>dfs.ha.namenodes.mycluster</name>
			<value>nn1,nn2</value>
		</property>


		<property>
			<name>dfs.namenode.rpc-address.mycluster.nn1</name>
			<value>hadoop-senior.cj.com:8020</value>
		</property>
		<property>
			<name>dfs.namenode.rpc-address.mycluster.nn2</name>
			<value>hadoop-senior1.cj.com:8020</value>
		</property>
	
		<property>
			<name>dfs.namenode.http-address.mycluster.nn1</name>
			<value>hadoop-senior.cj.com:50070</value>
		</property>
		<property>
			<name>dfs.namenode.http-address.mycluster.nn2</name>
			<value>hadoop-senior1.cj.com:50070</value>
		</property>


		<property>
			<name>dfs.namenode.shared.edits.dir</name>
			<value>qjournal://hadoop-senior.cj.com:8485;hadoop-senior1.cj.com:8485;hadoop-senior2.cj.com:8485/mycluster</value>
		</property>

	
		<property>
			<name>dfs.client.failover.proxy.provider.mycluster</name>
			<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
		</property>
	
	
		<property>
			<name>dfs.ha.fencing.methods</name>
			<value>sshfence</value>
		</property>

		<property>
			<name>dfs.ha.fencing.ssh.private-key-files</name>
			<value>/home/cj/.ssh/id_rsa</value>
		</property>
<property>
			<name>dfs.journalnode.edits.dir</name>
			<value>/home/cj/opt/app/hadoop-2.7.3/journal</value>
		</property>
		
</configuration>

完全0开始部署hadoop HDFS的HA集群，使用zk实现自动容灾

1.停掉hadoop所有进程

2.登录JN节点主机，启动JN进程（dfs.namenode.shared.edits.dir配置的哪些就去哪些主机去启动）

hadoop-daemon.sh start journalnode

3.登录其中一个NN,格式化文件系统(hadoop-senior.cj.com)

$>hadoop namenode -format

同时启动hadoop-daemon.sh start namenode

4.在未格式化的NN(hadoop-senior1.cj.com)节点上做standby引导.

1）注意：要保证hadoop-senior.cj.com的namenode启动了

2）登录到hadoop-senior1.cj.com节点，做standby引导.

$>hdfs namenode -bootstrapStandby

3）登录201，将hadoop-senior.cj.com的edit日志初始化到JN节点。
$>hdfs namenode -initializeSharedEdits

5.启动所有的namenode和datanode

hadoop-daemons.sh start datanode

hadoop-daemons.sh start namenode

6.自动容灾

1）停止所有进程

$>stop-all.sh

2）配置hdfs-site.xml，启用自动容灾.
[hdfs-site.xml]
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>

</property>

3）配置core-site.xml，指定zk的连接地址.
<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop-senior.cj.com:2181,hadoop-senior.cj.com:2181,hadoop-senior.cj.com:2181</value>
</property>

然后分发

7.登录其中的一台NN(hadoop-senior.cj.com),在ZK中初始化HA状态

$>hdfs zkfc -formatZK

8.启动hdfs进程.

$>start-dfs.sh

2.RM(YARN)的HA自动容灾配置

yarn-site.xml

<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
     
	 
	 <property>
			<name>yarn.resourcemanager.ha.enabled</name>
			<value>true</value>
		</property>
		<property>
			<name>yarn.resourcemanager.cluster-id</name>
			<value>cluster1</value>
		</property>
		<property>
			<name>yarn.resourcemanager.ha.rm-ids</name>
			<value>rm1,rm2</value>
		</property>
		<property>
			<name>yarn.resourcemanager.hostname.rm1</name>
			<value>hadoop-senior.cj.com</value>
		</property>
		<property>
			<name>yarn.resourcemanager.hostname.rm2</name>
			<value>hadoop-senior1.cj.com</value>
		</property>
		<property>
			<name>yarn.resourcemanager.webapp.address.rm1</name>
			<value>hadoop-senior.cj.com:8088</value>
		</property>
		<property>
			<name>yarn.resourcemanager.webapp.address.rm2</name>
			<value>hadoop-senior1.cj.com:8088</value>
		</property>
		<property>
			<name>yarn.resourcemanager.zk-address</name>
			<value>hadoop-senior.cj.com:2181,hadoop-senior1.cj.com:2181,hadoop-senior2.cj.com:2181</value>
		</property>

1. 启动yarn集群

$>start-yarn.sh

2.hadoop没有启动两个resourcemanager,需要手动启动另外一个
$>yarn-daemon.sh start resourcemanager

hive的注意事项
------------------
如果配置hadoop HA之前，搭建了Hive的话，在HA之后，需要调整路径信息.

主要是修改mysql中的dbs,tbls等相关表。