HACMP问题检查

A机、B机HACMP不能相互接管,一般主要表现在两个方面:

       1、 双机的HACMP参数配置、某些系统参数的配置以及双机应用环境设置是否符合实际需求;
       2、 接管时,占有资源的机器是否能合理地释放资源         
     HACMP为我们测试高可用性环境提供了一个很有用的工具, 这就是停止hacmp的一种方式-----graceful
with takeover(正常关闭并让另一方接管),要测试双机,可以按照如下面步骤进行:
     一、隔离应用测试
         1、 检查双机卷组状态(lsvg -o),文件系统情况(df),网卡状态及IP(netstat -in),/etc/hosts表;
         2、 隔离应用。为了不改变原有HACMP配置,可将应用脚本中的命令注释掉,或者将这些应用脚本的执
             行权限取消掉(chmod a-x filename),或将原有文件备份,将原有文件清空,增加一banner提示;
         3、 在A机、B机启动HACMP(smitty clstart);
         4、 跟踪/tmp/hacmp.out(tail -f /tmp/hacmp.out),直到node_up_complete事件完毕。检查双机
             hacmp状态(clstat),卷组状态(lsvg          -o),文件系统状态(df),网卡及路由状态
             (netstat), cluster进程状态(lssrc -g cluster)。如果不能得到预期的结果,则需要检查
             hacmp及系统配置;
         5、 在A机执行smitty clstop, 选择graceful with takeover;
         6、 跟踪双机的/tmp/hacmp.out(tail -f /tmp/hacmp.out),检查双机hacmp状态(clstat),卷组状态
             (lsvg -o),文件系统状态(df),网卡及路由状态(netstat) ,cluster进程状态
             (lssrc -g cluster)。如果不能得到预期的结果,则hacmp.out文件中应有相应的FAILURE EVENT的
             提示,可依此对hacmp及系统进行检查;
         7、 如果情况正常,A机的资源被B机接管,则回到A机,执行smit clstart启动HACMP;
         8、 跟踪双机的hacmp.out(tail -f /tmp/hacmp.out),检查双机cluster状态(clstat,lssrc -g
             cluster),卷组状态(lsvg -o),文件系统状态(df),网卡及路由状态(netstat) 。如果A机不能取
             回资源,检查hacmp.out文件,查找FAILURE EVENT信息,然后hacmp及系统进行检查;
         9、 如果以上情况都正常,则说明hacmp在没有应用干预的情况下,双机工作正常。可停止双机hacmp
             (smitty clstop)进行如下的测试。          
      二、加载应用测试
         10、 检查双机卷组状态(lsvg -o),文件系统情况(df),网卡状态及IP(netstat -in),检查应用脚本权
              限、属主,内容(将原先脚本复原)。
         11、 在A机执行smitty clsart,。
         12、 跟踪hacmp.out,检查是否被正常启动,检查卷组、文件系统、应用进程、网卡ip地址,同时还可
              以进行简单的应用测试。如果应用没被启动,则需要检查应用启动脚本以及应用环境。
         13、 如应用正常,则执行smitty clstop,选择graceful;
         14、 检查hacmp.out、卷组、文件系统、cluster进程、网卡IP地址。如果其中出现以下情况将不能停止:
              1) 文件系统没有被unmount,检查还有哪些进程在使用它(fuser -u filesystem),然后对应用脚
                  本进行优化。
              2) 文件系统被unmount,但卷组没被varyoff,检查lsvg -l vgname,查看是不是还有lv是open状
                  态,检查还有哪些进程在使用它(fuser          -u /dev/lvname),然后对应用脚本进行优
                  化。
               * 如果以上方法都无效,可尝试如下方法,在停止应用脚本未尾增加如下几行:
                          sleep 30
                          fuser -ku /filesystem(将正在使用文件系统的进程强迫杀掉)
                          fuser -ku /dev/lvname(将正在使用逻辑卷的进程强迫杀掉)
         15、 如果上述情况正常,则证明机器A机应用脚本没有问题。现在开始启动双机的HACMP(smitty clstart);
         16、 在A机执行smitty clstop, 选择graceful with takeover;
         17、 跟踪双机的/tmp/hacmp.out(tail -f /tmp/hacmp.out),检查双机hacmp状态(clstat),卷组状态
              (lsvg -o),文件系统状态(df),网卡及路由状态(netstat) ,cluster进程状态(lssrc -g cluster)。
              出现问题的原因可能有两种:
                   1) A机cluster进程一致处在stopping状态(lssrc -g cluster),A机hacmp.out有fail event信
                      息,这时可考虑在A机停止脚本后加一时间延迟,如sleep          100。
                   2) A机资源正常释放,B主机卷组、文件系统、网卡地址都正常接管,但应用未启动,此时应检
                      查B机应用启动脚本属性、内容以及应用环境。
         18、 如果情况正常,则说明B机接管A机的资源正常。再在A机,执行smit clstart启动HACMP;
         19、 跟踪双机的hacmp.out(tail -f /tmp/hacmp.out),检查双机cluster状态(clstat,lssrc -g
              cluster),卷组状态(lsvg -o),文件系统状态(df),网卡及路由状态(netstat) 。如果A机不能取回
              资源,参考14和17;
    以上测试只是针对资源组是casscading方式,并且A机的优先级比B机高。要测试以B机为主的资源组,同样可参照
上述方法。


检查HACMP常用命令:
1、 检查文件系统状态
#df

2、 检查网卡及IP地址状态
# netstat -in

3、 查看路由表
#netstat -rn

4、 检查卷组
# lsvg
# lsvg -o 检查激活的卷组
# lsvg vgname 检查卷组的属性,卷组的有效空间、利用空间、空闲空间,卷组是否启动激活
# lsvg -l vgname 检查卷组包含的逻辑卷

5、 检查物理卷
# lspv
# lspv pvname 检查物理卷属性,空间使用情况

6、 性能分析检查
# vmstat m n (m表示显示行数,n表示间隔时间)

7、 页空间使用情况
# lsps -a
# lsps -s

8、 进程状态检查
# ps -ef
# ps aux

9、 HACMP CLUSTER进程状态检查
# lssrc -g cluster
# ps -ef | grep cluster

10、 检查双机节点运行状态
# /usr/sbin/cluster/clstat (clinfo进程必须启动)

11、 启动、停止HACMP
# smitty clstart(推荐) & # rc.cluster & # startsrc -g cluster
# smitty clstop(推荐) & # clstop & # stopsrc -g cluster

12、捕获hacmp启停事件状态信息 tail -f /tmp/hacmp.out

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
第1章 AIX系统管理日常工作(检查篇) 1 1.1 常用的命令 1 1.2 语法介绍 1 1.2.1 vmstat:检查内存、CPU、进程状态 1 1.2.2 sar:检查CPU、IO 2 1.2.3 PS:检查进程状态命令 3 1.2.4 svmon:显示进程占用内存 3 1.2.5 iostat:显示磁盘IO 4 1.2.6 netstat, entstat:显示网卡信息 4 1.2.7 no:显示tcpip参数设置 5 1.2.8 其它命令 5 第2章 AIX系统管理日常工作(LV篇) 6 2.1 IBM AIX系统管理的日常工作 6 2.1.1 开关机步骤 6 2.1.2 用户组及用户管理 6 2.1.3 文件系统维护 6 2.1.4 系统日常管理 7 2.1.5 系统备份 7 2.1.6 定时清洗磁带机 7 2.1.7 定时检查设备指示灯状态 7 2.1.8 简单故障的判断 7 2.1.9 熟悉ibm aix操作系统 7 2.2 关于IBM AIX的逻辑卷管理 7 2.3 LVM命令 8 第3章 AIX系统管理日常工作(关键参数检查篇) 10 3.1 AIO参数检查 10 3.2 磁盘阵列QUEUE_DEPTH参数检查 11 3.3 用户参数检查 11 3.4 激活SSA FAST-WRITE CACHE 12 3.5 IO参数设置 12 3.6 SYNCD DAEMON的数据刷新频率 12 3.7 检查系统硬盘的镜像 12 第4章 AIX系统管理日常工作(性能分析篇) 13 4.1 性能瓶颈定义 13 4.2 性能范围 14 第5章 AIX系统管理日常工作(SHUTDOWN篇) 14 5.1 概念 14 5.2 关机命令 14 第6章 AIX系统管理日常工作(备份与恢复篇) 15 6.1 用SMIT备份 15 6.2 手工备份 15 6.3 恢复系统 15 第7章 HACMP的 双机系统的管理和维护 15 7.1 HACMP 双机系统的启动 15 7.2 HACMP 双机系统的关闭 16 7.3 察看双机系统的当前状态 16 7.4 HACMP环境下的排错 17 7.4.1 了解问题的存在 17 7.4.2 判断问题的出处 18
服务器巡检报告 巡检报告单 机器型号: 序列号: 检查时间:_______年____月____日 1.机房环境: 温度 符合要求 不符合¬ 湿度 符合要求 不符合 2机器清洁(根据需要清洁机器各部件): 已清洁 不需要 3.检查系统硬件情况: 设备故障灯是否有亮 有 无 是否有其他否异常情况(如硬盘、风扇异常的声音,电缆破损) 有 无 4.系统错误报告(Error Log): 有否硬件故障 有 无 故障内容: 若有硬件,运行故障诊断分析错误报告( eg: diag -ed hdisk1) 结论(如SRN, FRU等): 有否软件故障 有 无 故障内容: 结论: 5.有否发给root用户的错误报告(mail): 有 无 结论: 6.检查,,bootlog等: 正常 不正常 7.文件系统的使用率不大于80%: 是 否 8.查看卷组信息(lsvg -l vg_name),有没有"stale"状态的逻辑卷: 是 否 若有,用syncvg 命令修复"stale"逻辑卷。 备注: 9.系统性能,有否性能瓶颈(topas, vmstat等): 有 无 交换区使用率是否超过70%(lsps -s),实际值____¬ CPU是否繁忙(sar 1¬ 10),idle值_____ I/O平衡(iostat 1)¬ 10.备份: 有否合符要求的系统备份: 有 无 最近一次系统备份的时间_________¬ 有否符合要求的用户数据备份: 有 无 有否符合要求的用户数据备份: 有 无 磁带机是否需要清洗: 需要 不需¬ 11.通信: 网卡的状态、IP地址、路由表等: 正常 不正常¬ 网卡通信(ping): 正常 不正常 /etc/hosts文件或DNS设置: 正常 不正常 12.系统DUMP设置是否正确: 正常 不正常 13. HACMP 测试: Cluster Verification: 正常 ¬ 不正常; 相关参数设置检查: 正常 不正常¬ (根据需要)接管测试: 正常 不正常 14.系统硬件诊断: 系统板、CPU、内存、I/O板: 正常 不正常 网卡、SCSI卡、SSA卡: 正常 不正常 系统其他扩展卡: ¬ 正常 不正常 硬盘、磁盘阵列: ¬ 正常 不正常 磁带机、磁带库: ¬ 正常 不正常 15.查系统参数是否正确: 是 否 I/O pacing: High Water Mark/Low Water¬ Mark:33/24 Syncd:10¬ Aio :available¬ /etc/environment文件中TZ不应有夏时制 Hacmp 系统中Power Monitor子系统应关闭¬ 16.补丁程序(PTF)检查,现有补丁维护版本为_____: 根据系统运行状况决定是否安装新的PTF。 需要安装的补丁程序: 17.运行#snap –ac,生成文件命名为snap+s/。 18.检查errdemon, srcmstr是否正常运行: 是 否 ----------------------- The Standardization Office was revised on the afternoon of December 13, 2020 服务器巡检报告全文共5页,当前为第1页。 服务器巡检报告全文共5页,当前为第2页。 服务器巡检报告全文共5页,当前为第3页。 服务器巡检报告全文共5页,当前为第4页。 服务器巡检报告全文共5页,当前为第5页。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值