对于HA安装时出现的故障,如同步拓扑图失败,要求检查以下条款看是否符合要求:

1.对于4.4.1版本的HA一定要打上15以上的补丁,4.5版本的HA要求打上9以上的补丁

2.网络相关的配置文件一定要按照安装手册去设置

3.网络ip配置要正确并且保证物理链路畅通

4.所有4.4.1、4.4.0版本一律使用标准版

5.不能在同一台机器中同时安装标准版或ES版

6. 打补丁时请使用smitty update_all方式,不要选择打所有补丁,因为标准版和ES版的补丁往往在一起,这样会导致版本不一致

如果是新开局,一定要保证做双机倒换测试并确保成功。

如果在后续使用中,进行了如下操作,以后再做双机切换会失败:

1.在IBM小型机主机上做过磁阵RAID或共享VG相关信息的修改,如:增加了新的RAID盘,修改了共享VG的配置

2.在共享VG中增加了新的FS、增加了新LV

3.以上配置或修改只在主机上进行了操作,而未将共享VG信息及时同步到备机

4.备机虽然导入了新的共享VG信息,但未修改共享VG属性为系统启动时不自动启动

5.未在共享VG激活、共享文件系统mount状态下修改备机共享文件系统、裸设备的权限改为数据库可操作的权限

以下是HA的正常操作流程和异常情况下的处理,供参考:

HA正常操作流程

a、启动HA前必须保证:

双机结构组件物理连接正确无误

操作系统运行正常

HA软件安装配置正确,拓扑结构和资源组同步成功完成

系统当前无任何HA进程如clstrmgr、clsmuxpd或clinfo运行,如果有则首先执行HA关闭操作

系统当前无任何HA资源组中定义的应用进程或设备击活,如共享磁盘vg未挂接在任何节点上、属于资源组的数据库和应用进程未启动等


b、HA启动过程是clstrmgr被击活后由它在后台调用执行相关脚本完成,所以启动过程是否结束不能单看cluster进程是否被击活,最好方法是跟踪hacmp.out日志记录:

# tail -f /tmp/hacmp.out

启动结束标志:hacmp.out记录HACMP Event Summary(任何动作结束标志)

建议主备节点顺序启动,不可主备机同时启动HA

c、任何事件操作必须等待该事件完全执行完毕后方可执行下一个事件


d、HA结合服务器的冗余部件可以完全消除双机系统中的单点故障,但当系统出现多点故障时并不保证系统正常运行,多点故障包括双机同时出现多个与HA相关部件错误,或者双机出现某个错误引起HA启动相应事件脚本切换后又出现另一个错误需要再次切换资源,此时,需要看具体情况人工干预引导系统正常运行

e、在关闭HA时,需要确保HA彻底关闭后才执行后续操作,是否完成关闭动作可查看:

# l***c -g cluster

无任何进程运行

# tail -f /tmp/hacmp.out

hacmp.out记录HACMP Event Summary

# lsvg -o

共享vg不在挂接与任何一个节点服务器上

f、任何事件默认须在360秒内执行完成,否则HA将自动启动config_too_long事件。


g、如果在执行任何事件脚本时出现异常或错误,HA将挂死而无法完成后续事件脚本,经过360秒钟后,HA将自动启动config_too_long脚本,hacmp.out将记录此事件的执行

异常情况应急处理

在执行任何事件脚本出现异常而无法正常运行HA时,采取以下步骤:

a、关闭所有有关HA的应用进程,如手工停止智能网进程,手工停止数据库等

b、umount所有共享vg上的文件系统

c、执行varyoffvg将共享vg从服务器离线

d、执行smitty clstop选择Shutdown mode为"forced"方式关闭HA

e、用命令

  # ps -ef

  # lsvg -o

  # l***c -g cluster

  # netstat -i

等查看以上操作是否执行完整,如果有些相关进程未关闭可以使用kill将其杀掉(不能保证系统保持运行正常,可能出现系统宕机)

f、查看双机系统物理连接是否完好

g、通过以上命令关闭所有有关HA进程后,重启HA smitty clstart,重新验证HA是否正常

h、通过以上各个步骤的操作HA依然不能正常工作,关机重启系统