日期:2014-05-03                            来源:Linux社区

本文在《Hadoop2.0的安装和基本配置》(见 http://www.linuxidc.com/Linux/2014-05/101173.htm )一文的基础上继续介绍hadoop2.0 QJM(Quorum Journal Manager)方式的HA的配置(hadoop2.0架构,具体版本是hadoop2.2.0)。本文只介绍HA的主备的手工切换,自动切换在下一篇文章继续介绍(见http://www.linuxidc.com/Linux/2014-05/101176.htm)。

--------------------------------------分割线 --------------------------------------

相关阅读

Ubuntu 13.04上搭建Hadoop环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu上搭建Hadoop环境(单机模式+伪分布模式) http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu下Hadoop环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建Hadoop环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

搭建Hadoop环境(在Winodws环境下用虚拟机虚拟两个Ubuntu系统进行搭建) http://www.linuxidc.com/Linux/2011-12/48894.htm

--------------------------------------分割线 --------------------------------------

1 准备

文中描述的机器角色包含2个namenode:

  • namenode1

  • namenode2


其中namenode1为active namenode;namenode2为standby namenode。 

包含3个journalnode:

  • journalnode1

  • journalnode2

  • journalnode3

journalnode的机器的数量是奇数,可以是3,5,7...,2n+1。

其他机器角色本文中不涉及的可以参考《hadoop2.0的安装和基本配置》一文。

2 配置

HA的配置只涉及到core-site.xml和hdfs-site.xml两个配置文件,其他配置可以文件参考《Hadoop2.0的安装和基本配置》一文。

2.1 core-site.xml

<configuration>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://mycluster</value>

        </property>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>/home/tmp/hadoop2.0</value>

        </property>

</configuration>


2.2 hdfs-site.xml

<configuration>

        <property>

                <name>dfs.replication</name>

                <value>1</value>

        </property>

        <property>

                <name>dfs.namenode.name.dir</name>

                <value>/home/dfs/name</value>

        </property>

        <property>

                <name>dfs.datanode.data.dir</name>

                <value>/home/dfs/data</value>

        </property>

        <property>

                <name>dfs.permissions</name>

                <value>false</value>

        </property>

        <property>

                <name>dfs.nameservices</name>

                <value>mycluster</value>

        </property>

        <property>

                <name>dfs.ha.namenodes.mycluster</name>

                <value>nn1,nn2</value>

        </property>

        <property>

                <name>dfs.namenode.rpc-address.mycluster.nn1</name>

                <value>namenode1:8020</value>

        </property>

        <property>

                <name>dfs.namenode.rpc-address.mycluster.nn2</name>

                <value>namenode2:8020</value>

        </property>

        <property>

                <name>dfs.namenode.http-address.mycluster.nn1</name>

                <value>namenode1:50070</value>

        </property>

        <property>

                <name>dfs.namenode.http-address.mycluster.nn2</name>

                <value>namenode2:50070</value>

        </property>

        <property>

                <name>dfs.namenode.shared.edits.dir</name>

                <value>qjournal://journalnode1:8485;journalnode2:8485;journalnode3:8485/mycluster</value>

        </property>

        <property>

                <name>dfs.journalnode.edits.dir</name>

                <value>/home/dfs/journal</value>

        </property>

        <property>

                <name>dfs.client.failover.proxy.provider.mycluster</name>

                <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

        </property>

        <property>

                <name>dfs.ha.fencing.methods</name>

                <value>sshfence</value>

        </property>

        <property>

                <name>dfs.ha.fencing.ssh.private-key-files</name>

                <value>/root/.ssh/id_rsa</value>

        </property>

        <property>

                <name>dfs.ha.fencing.ssh.connect-timeout</name>

                <value>6000</value>

        </property>

        <property>

                <name>dfs.ha.automatic-failover.enabled</name>

                <value>false</value>

        </property>

</configuration>

上述有些参数这里需要解释一下。

dfs.ha.automatic-failover.enabled

这里是把主备自动切换关闭,需要手工来切换。在下一篇文章会介绍通过配置zookeeper来实现主备自动切换。

fs.ha.namenodes.mycluster

<value>中的nn1,nn2分别是active namenode和standby namenode的namenode id,你也可以自己起一个namenode id,只要在参数中都保持一致就可以了。

dfs.namenode.shared.edits.dir

配置一组journalnode(3,5,7,...,2n+1)的URI,用于active namenode和standby namenode读写edits文件(原理可以参考前面的文章《hadoop2.0的HA介绍》),<value>中的mycluster是dfs.nameservices保持一致。你可以自己起一个nameservice ID,只要在参数中都保持一致就可以了。

dfs.journalnode.edits.dir

是在journalnode节点上用于存放active namenode和standby namenode共享的edits文件的目录。

dfs.ha.log-roll.period

active namenode的edits文件轮转的时间间隔,前面没有设置这个参数,默认值是120秒。即standby namenode会隔120秒要求active namenode切出一个edits文件,然后通过journalnode去同步这个文件。

active namenode会隔120秒会切出一个新edits文件,并且给这些edits文件一个编号,越新的edits文件编号越大。

日志轮转的时候开始会先生成一个新的“inprogress” edits文件(文件名带着“inprogress”),说明日志正在生成,轮转没完成。当过了120秒之后,日志轮转完成,文件改名,文件名字带着一个目前最大的编号(文件名没有“inprogress”)。然后生成一个新的“inprogress” edits文件,开始下一次edits文件轮转。

当发生主备切换的时候,会触发一次edit文件的轮转,这样standby namenode就会把剩下的edits文件同步过来,在切换到active状态时元数据能保持一个最新的状态。

dfs.ha.tail-edits.period

standby namenode每隔多长时间去检测新的edits文件。它只会检查已经完成轮转的edits文件,不会检查“inprogress” edits文件。

dfs.ha.fencing.methods

在hdfs-site.xml文件中,隔离策略可以设置两个(有两个),即:

<property>

     <name>dfs.ha.fencing.methods</name>

     <value>

            sshfence   

            shell(/bin/true)

     </value>

</property>

分行写,一行一个。
系统在任何时候只有一个namenode节点处active状态。在主备切换的时候,standby namenode会变成active状态,原来的active namenode就不能再处于active状态了,否则两个namenode同时处于active状态会造成所谓的“脑裂”问题。所以在failover的时候要设置防止2个namenode都处于active状态的方法,可以是java类或者脚本。

fencing的方法目前有两种,sshfence和shell

sshfence方法是指通过ssh登陆到active namenode节点杀掉namenode进程,所以你需要设置ssh无密码登陆,还要保证有杀掉namenode进程的权限。

shell方法是指运行一个shell脚本/命令来防止“脑裂”问题,脚本需要自己写。

注意,QJM方式本身就有fencing功能,能保证只有一个namenode能往journalnode上写edits文件,所以是不需要设置fencing的方法就能防止“脑裂”问题的。但是,在发生failover的时候,原来的active namenode可能还在接受客户端的读请求,这样客户端很可能读到一些过时的数据(因为新的active namenode的数据已经实时更新了)。因此,还是建议设置fencing方法。如果确实不想设置fencing方法,可以设置一个能返回成功(没有fencing作用)的方法,如“shell(/bin/true)”。这个纯粹为了fencing方法能够成功返回,并不需要真的有fencing作用。这样可以提高系统的可用性,即使在fencing机制失败的时候还能保持系统的可用性。