Heartbeat 双机热备实验
一、实验图示
二、实验环境:
Vmware 双机,分别为server1和server2,虚拟IP为:128.1.37.85
 Server1 IP:
     eth0: 128.1.37.86       eth1: 10.10.10.131
 Server2 IP:
     eth0: 128.1.37.87       eth1: 10.10.10.1132
三、安装软件:
1)本次测试使用rpm包安装,需要安装如下三个文件:

2)如果源码安装,只需要编译安装源文件即可,但是需要先建立用户,如下:
groupadd haclient
useradd hacluster -g haclient
安装 heartbeat前,需要先安装libnet包。
 tar zxvf heartbeat-2.1.3.tar.gz
 rpm -ivh libnet-1.1.2.1-2.2.el4.rf.x86_64.rpm
 cd heartbeat-2.1.3
./configure
 make
 make install
同样地,在另一个主机上也是这么安装。
四、配置主服务器
heartbeat有三个配置文件:
ha.cf,authkyes,haresources
这些文件本身并不存在,需要先建立,可以从示范文档中拷贝过来,进行修改

主备服务器的ha.cf, authkyes, haresources完全一样即可

 
1)ha.cf配置内容:
------------------------------------------------------------------------------------------------------------
logfile /var/log/ha-log       #指定日志文件位置
keepalive 2                   #指定心跳时间间隔,此次为2秒         
deadtime 30                   #如果30秒没有收到对方心跳就认为对方已经DOWN机
warntime 10                   #10秒没有收到心跳,便发出警报。
initdead 120                  #对方DOWN后120秒重新检测一次。
udpport 694                   #指定监听端口
bcast    eth1                 #指定eth1为心跳监听网卡
ucast    eth1 10.10.10.132     #使用eth1来ping备用节点ip10.10.10.132,检测是否存活。
auto_failback on              #主节点在恢复后抢夺回主服务器资源。
node           server1 #指定主服务器的节点名,需与host文件中一致
node           server2   #指定备用服务器的节点名,需与host文件中一致
 
ping_group group1 128.1.37.1 128.1.37.246   #当128.1.37.1 128.1.37.246这两个IP都不能ping通时对方即开始接管资源。选择ping的节点,ping节点选择的越好,HA集群就越强壮,可以选择固定的路由器作为ping节点,但是最好不要选择集群中的成员作为ping节点,ping节点仅仅用来测试网络连接。
 
respawn hacluster /usr/lib/heartbeat/ipfail    #启用ipfail脚本
 
apiauth ipfail gid=haclient uid=hacluster     #指定运行ipfail的用户。
 
注释: ipfail是和heartbeat集成的插件,此进程用于检测和处理网络故障,
需要配合ping语句指定的ping node来检测网络的连通性。其中root表示启动ipfail进程   
 
2)haresources文件配置:
--------------------------------------------------------------------------------------------------
例:server1    128.1.37.85    httpd   smb
注释:
 server1为主服务器名(与uname -n输出应一致),128.1.37.85为虚拟IP,smb和httpd为要控制的资源脚本(已经存放在/etc/init.d/),该行指定在启动时,节点server1得到IP地址128.1.37.85,并启动Apache和Samba。在停止时,Heartbeat将首先停止smb,然后停止Apache,最后释放IP地址128.1.37.85。
 
注意:此处的服务资源(如httpd,smb等都是预先定义在/etc/rc.d/init.d/中的,如果是源码编译的程序,需要注意此处。)
3)配置 authkeys

本文件有三种认证级别,crc,md5,和sha1,建议如下:

crc: 两台机器直接用交叉线连接时用,CPU开销最小,最不安全
md5: 相对不安全,但是cpu开销较小
sha1: 最安全,但是CPU 开销也最大,
 
文件格式如下:
    auth <number>
    <number> <authmethod> [<authkey>]
 不论您在关键字auth后面指定的是什么索引值,在后面必须要作为键值再次出现。如果您指定“auth 4”,则在后面一定要有一行的内容为“4 <signaturetype>”。
 
确保该文件的访问权限是安全的,如600。
 
五、配置副服务器
在主服务器上拷贝配置文件到副服务器上
scp /etc/ha.d/ha.cf  root@server2:/etc/ha.d/ha.cf
scp /etc/ha.d/haresources  root@server2:/etc/ha.d/haresources
scp /etc/ha.d/ authkeys  root@server2:/etc/ha.d/authkeys
===============================================================
只需要修改ha.cf文件中的ucast为如下:
 ucast eth1 10.10.10.131
 
六、启动服务
Service heartbeat start
 
附加信息:
A、虽然Heartbeat不要求在两个服务器上使系统钟同步主要和备份服务器,但是系统时钟应该在的几十秒之内,否则在高可用性服务的环境下会产生故障。
B、 如果修改了配置文件etc/ha.d/ authkeys或者 /etc/ha.d/ha.cf后要使用下面的命令重新加载服务。
    #/etc/init.d/heartbeat reload
    或者
#service heartbeat reload
C、可以使用命令查看日志文件:
#tail -f /var/log/messages
 
D、什么是ipfail
 
    ipfail插件的用途是检测网络故障,并作出合理的反应,如果需要的话使集群资源failover。为了实现这样的功能ipfail使用ping节点或者ping节点组,这些节点在集群中作为“哑”节点出现。如果HA节点间可以相互通信ipfail便可以可靠地检测到其中一个网络连接失效的情况,并作出补救。
 
    配置ipfail的步骤如下:
 
    a.选择好的候选ping节点
 
    这步很重要。你的选择越好,则得到的HA集群便越强壮。选择固定的交换机路由器等是一个好主意。不要选择HA集群中的任一个成员,也不要选择其他人的工作站。选择能反映您HA节点的连接状况的ping节点也很重要。如果您要监视两个接口的连接情况,明智的做法是为每个接口选择一个只对该接口可用的ping节点。
 
    b.设置auto_failback为on或者off
 
    只有当Heartbeat被配置为非legacy时ipfail才会起作用。在ha.cf文件中,如下将auto_failback设置为on或者off:
 
    auto_failback on
 
    或者
    auto_failback off
 
    c.配置ha.cf使之启动ipfail。
 
    向ha.cf中增加如下一行(假设您在编译时的PREFIX为/usr):
 
    respawn hacluster /usr/lib/heartbeat/ipfail
 
    d.向ha.cf中加入ping节点:
 
    ping pnode1 pnode2 pnodeN
 
    将pnode1,pnode2,…pnodeN等替换为您ping节点的IP地址。
    确保向集群中各个成员的ha.cf中加入以上相同的配置指令。
 
     e. 修改Heartbeat配置文件
 
    如果修改了配置文件etc/ha.d/ authkeys或者 /etc/ha.d/ha.cf后要使用下面的命令重新加载服务。
    #/etc/init.d/heartbeat reload
    或者
#service heartbeat reload
 
E、什么是stonith
stonith是“shoot the other node in the head”[1]的首字母简写,它是Heartbeat软件包的一个组件,它允许使用一个远程或“智能的”连接到健康服务器的电源设备自动重启失效服务器的电源,stonith设备可以关闭电源并响应软件命令,运行Heartbeat的服务器可以通过串口线或网线向stonith设备发送命令,它控制高可用服务器对中其他服务器的电力供应,换句话说,主服务器可以复位备用服务器的电源,备用服务器也可以复位主服务器的电源。尽管理论上连接到远程或“智能的”循环电源系统的电力设备的数量是没有限制的,但大多数stonith实现只使用两台服务器
 
 查看当前支持Stonith设备清单的命令:
    #/usr/sbin/stonith -L
    查看当前支持Stonith设备其他情况的命令
    例如查看rps10的设备配置的命令:
    # /usr/sbin/stonith -l -t rps10 test
    命令输出:
 
      STONITH: Cannot open /etc/ha.d/rpc.cfg
STONITH: Invalid config file for rps10 device.
STONITH: Config file syntax: <serial_device> <server> <outlet> [ <server>
<outlet> [...] ]
All tokens are white-space delimited.
Blank lines and lines beginning with # are ignored
   
    所以在rps10设备在/etc/ha.d/ha.cf 配置文件中的格式如下:
    STONITH_host backupserver rps10 /dev/ttyS0 primaryserver.mydomain.com 0