HACMP问题检查

转载 2011年01月10日 15:28:00

A机、B机HACMP不能相互接管,一般主要表现在两个方面:

       1、 双机的HACMP参数配置、某些系统参数的配置以及双机应用环境设置是否符合实际需求;
       2、 接管时,占有资源的机器是否能合理地释放资源         
     HACMP为我们测试高可用性环境提供了一个很有用的工具, 这就是停止hacmp的一种方式-----graceful
with takeover(正常关闭并让另一方接管),要测试双机,可以按照如下面步骤进行:
     一、隔离应用测试
         1、 检查双机卷组状态(lsvg -o),文件系统情况(df),网卡状态及IP(netstat -in),/etc/hosts表;
         2、 隔离应用。为了不改变原有HACMP配置,可将应用脚本中的命令注释掉,或者将这些应用脚本的执
             行权限取消掉(chmod a-x filename),或将原有文件备份,将原有文件清空,增加一banner提示;
         3、 在A机、B机启动HACMP(smitty clstart);
         4、 跟踪/tmp/hacmp.out(tail -f /tmp/hacmp.out),直到node_up_complete事件完毕。检查双机
             hacmp状态(clstat),卷组状态(lsvg          -o),文件系统状态(df),网卡及路由状态
             (netstat), cluster进程状态(lssrc -g cluster)。如果不能得到预期的结果,则需要检查
             hacmp及系统配置;
         5、 在A机执行smitty clstop, 选择graceful with takeover;
         6、 跟踪双机的/tmp/hacmp.out(tail -f /tmp/hacmp.out),检查双机hacmp状态(clstat),卷组状态
             (lsvg -o),文件系统状态(df),网卡及路由状态(netstat) ,cluster进程状态
             (lssrc -g cluster)。如果不能得到预期的结果,则hacmp.out文件中应有相应的FAILURE EVENT的
             提示,可依此对hacmp及系统进行检查;
         7、 如果情况正常,A机的资源被B机接管,则回到A机,执行smit clstart启动HACMP;
         8、 跟踪双机的hacmp.out(tail -f /tmp/hacmp.out),检查双机cluster状态(clstat,lssrc -g
             cluster),卷组状态(lsvg -o),文件系统状态(df),网卡及路由状态(netstat) 。如果A机不能取
             回资源,检查hacmp.out文件,查找FAILURE EVENT信息,然后hacmp及系统进行检查;
         9、 如果以上情况都正常,则说明hacmp在没有应用干预的情况下,双机工作正常。可停止双机hacmp
             (smitty clstop)进行如下的测试。          
      二、加载应用测试
         10、 检查双机卷组状态(lsvg -o),文件系统情况(df),网卡状态及IP(netstat -in),检查应用脚本权
              限、属主,内容(将原先脚本复原)。
         11、 在A机执行smitty clsart,。
         12、 跟踪hacmp.out,检查是否被正常启动,检查卷组、文件系统、应用进程、网卡ip地址,同时还可
              以进行简单的应用测试。如果应用没被启动,则需要检查应用启动脚本以及应用环境。
         13、 如应用正常,则执行smitty clstop,选择graceful;
         14、 检查hacmp.out、卷组、文件系统、cluster进程、网卡IP地址。如果其中出现以下情况将不能停止:
              1) 文件系统没有被unmount,检查还有哪些进程在使用它(fuser -u filesystem),然后对应用脚
                  本进行优化。
              2) 文件系统被unmount,但卷组没被varyoff,检查lsvg -l vgname,查看是不是还有lv是open状
                  态,检查还有哪些进程在使用它(fuser          -u /dev/lvname),然后对应用脚本进行优
                  化。
               * 如果以上方法都无效,可尝试如下方法,在停止应用脚本未尾增加如下几行:
                          sleep 30
                          fuser -ku /filesystem(将正在使用文件系统的进程强迫杀掉)
                          fuser -ku /dev/lvname(将正在使用逻辑卷的进程强迫杀掉)
         15、 如果上述情况正常,则证明机器A机应用脚本没有问题。现在开始启动双机的HACMP(smitty clstart);
         16、 在A机执行smitty clstop, 选择graceful with takeover;
         17、 跟踪双机的/tmp/hacmp.out(tail -f /tmp/hacmp.out),检查双机hacmp状态(clstat),卷组状态
              (lsvg -o),文件系统状态(df),网卡及路由状态(netstat) ,cluster进程状态(lssrc -g cluster)。
              出现问题的原因可能有两种:
                   1) A机cluster进程一致处在stopping状态(lssrc -g cluster),A机hacmp.out有fail event信
                      息,这时可考虑在A机停止脚本后加一时间延迟,如sleep          100。
                   2) A机资源正常释放,B主机卷组、文件系统、网卡地址都正常接管,但应用未启动,此时应检
                      查B机应用启动脚本属性、内容以及应用环境。
         18、 如果情况正常,则说明B机接管A机的资源正常。再在A机,执行smit clstart启动HACMP;
         19、 跟踪双机的hacmp.out(tail -f /tmp/hacmp.out),检查双机cluster状态(clstat,lssrc -g
              cluster),卷组状态(lsvg -o),文件系统状态(df),网卡及路由状态(netstat) 。如果A机不能取回
              资源,参考14和17;
    以上测试只是针对资源组是casscading方式,并且A机的优先级比B机高。要测试以B机为主的资源组,同样可参照
上述方法。


检查HACMP常用命令:
1、 检查文件系统状态
#df

2、 检查网卡及IP地址状态
# netstat -in

3、 查看路由表
#netstat -rn

4、 检查卷组
# lsvg
# lsvg -o 检查激活的卷组
# lsvg vgname 检查卷组的属性,卷组的有效空间、利用空间、空闲空间,卷组是否启动激活
# lsvg -l vgname 检查卷组包含的逻辑卷

5、 检查物理卷
# lspv
# lspv pvname 检查物理卷属性,空间使用情况

6、 性能分析检查
# vmstat m n (m表示显示行数,n表示间隔时间)

7、 页空间使用情况
# lsps -a
# lsps -s

8、 进程状态检查
# ps -ef
# ps aux

9、 HACMP CLUSTER进程状态检查
# lssrc -g cluster
# ps -ef | grep cluster

10、 检查双机节点运行状态
# /usr/sbin/cluster/clstat (clinfo进程必须启动)

11、 启动、停止HACMP
# smitty clstart(推荐) & # rc.cluster & # startsrc -g cluster
# smitty clstop(推荐) & # clstop & # stopsrc -g cluster

12、捕获hacmp启停事件状态信息 tail -f /tmp/hacmp.out

IBM HACMP 系列 -- 集群的验证和测试

        验证和测试是可靠的配置的精髓,并且是成功实现的基础之一。大多数系统管理员都记得他们的上一个 HACMP 实现,其原因要么是该实现的压力极大,要么是因为一切都按预期顺利进行。      ...
  • tianlesoftware
  • tianlesoftware
  • 2011年01月22日 02:02
  • 4862

HACMP的安装

http://www.leadcom.com.cn/weibaozhishi/255.html URL: http://www.aixchina.net/blogs/mxin/archive/2006...
  • u012154652
  • u012154652
  • 2015年12月01日 17:14
  • 369

IBM HACMP 系列 -- 安装和配置三

HACMP 提供了下列类型的资源组:(1).      级联资源组(2).      循环资源组(3).      并发访问资源组(4).      自定义访问组一. 级联资源组       级联资源...
  • tianlesoftware
  • tianlesoftware
  • 2011年01月21日 20:09
  • 3482

HACMP环境修改IP的方法

一、   单独修改service IP1)主/备机节点停止HACMP服务# smitty clstop2)主/备机编辑/etc/hosts192.168.50.88 nodesvc3)# smitty...
  • qyq88888
  • qyq88888
  • 2010年08月22日 17:13
  • 2255

AIX HACMP系统错误--NODE同步配置错误

AIX HACMP系统错误--NODE同步配置错误环境:操作系统: AIX 5300-08集群软件: CRS 10.2.0.1数据库:   Oracle 10.2.0.1故障现象:   在构建AXI ...
  • lqx0405
  • lqx0405
  • 2015年03月31日 12:05
  • 1103

HACMP步骤

HACMP原理: 通过监控网络和网卡等信息,实现IP接管和应用监控(当监控主ihs出现问题是,backup ihs接管server IP,并对ihs设置进行启停) 1. 前提配置 备份所有ho...
  • jeff06143132
  • jeff06143132
  • 2013年12月27日 19:29
  • 1070

HACMP切换方式

http://wenku.baidu.com/view/2023813567ec102de2bd8985.html?from=related&hasrec=1
  • achejq
  • achejq
  • 2011年12月05日 09:41
  • 1162

HACMP切换启停DB2的脚本

1、编辑DB2_start.sh和DB2_stop.shDB2_start.shsu - db2inst1 -c 'db2start' DB2_stop.shsu- db2admin -c 'db2 ...
  • honghu79
  • honghu79
  • 2013年09月26日 20:06
  • 1359

HACMP中的进程

在HACMP的HAS/CRM模块中有:进程名 Subsystem Group 是否一定要启动/usr/sbin/cluster/clstrmgr clstrmgrcluster是/usr/sbin/c...
  • hayyon
  • hayyon
  • 2005年12月05日 16:32
  • 3786

IBM HACMP 系列 -- 后期安装工作和管理任务三

 一. 问题确定     HACMP 提供了各种工具来确定问题。集群配置和操作的每个方面都有多种对应的问题确定工具和技术。       在 HACMP 中进行问题确定需要有针对 HACMP 集群中的各...
  • tianlesoftware
  • tianlesoftware
  • 2011年01月23日 20:24
  • 4098
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:HACMP问题检查
举报原因:
原因补充:

(最多只允许输入30个字)