一、故障现象:
2台DB2数据库服务器操作系统正常,但是共享磁盘丢失。DB2数据库服务关闭。集群状态是“recovering”
二、解决办法:
通过重启两台数据库服务器,问题解决。
三、故障原因分析
通过远程VPN连接到客户的服务器端,抓取操作系统的日志。发现集群出现问题的时间在2009-09-27 13:05 分集群出现了故障。故障的原因是IBM软件开发指定归档路径,重启数据库时出现了故障。造成数据库关闭不彻底,F1DB01数据库仍有DB2进程存在,而且磁盘无法被节点F1DB02接管的状态。
四、收集日志
通过两个节点SOSREPORT,抓取系统日志:
节点:F1DB01 上操作系统日志中看到发生故障的时间点在 2009-09-27:13:05:17的时间点。
Sep 27 13:05:17 F1DB01 clurgmgrd: [3834]: script.:redhat_init_script. status of /etc/rc.d/init.d/db2v9 failed (returned 1)
说明节点1在“ Sep 27 13:05:17”发出了节点切换操作。
看来DB2数据库可能有问题,造成了脚本触发另外一个节点实现接管动作。察看DB2的日志
五、察看DB2日志
2009-09-27-12.59.50.556262+480 I492581G458 LEVEL: Event
PID : 16990 TID : 3086665408 PROC : db2agent (SMESPPT) 0
INSTANCE: gspinst1 NODE : 000 DB : SMESPPT
APPHDL : 0-58 APPID: *LOCAL.gspinst1.090927045817
AUTHID : GSPINST1
FUNCTION: DB2 UDB, config/install, sqlfLogUpdateCfgParam, probe:20
CHANGE : CFG DB SMESPPT: "Logarchmeth1" From: "USEREXIT" To: "DISK:/share_fs/dbistppt/pptdblog"
说明软件开发在做指定归档路径操作。
2009-09-27-13.05.10.294232+480 I497618G395 LEVEL: Warning
PID : 6485 TID : 3086665408 PROC : db2sysc 0
INSTANCE: gspinst1 NODE : 000
FUNCTION: DB2 UDB, routine_infrastructure, sqlerKillAllFmps, probe:5
MESSAGE : Bringing down all db2fmp processes as part of db2stop
DATA #1 : Hexdump, 4 bytes
0xBFCA140C : 0000 0000
指定日志路径后,需要重启数据库。
2009-09-27-13.05.10.596637+480 I500015G387 LEVEL: Error
PID : 13621 TID : 3086575824 PROC : db2fmp (
INSTANCE: gspinst1 NODE : 000
FUNCTION: DB2 UDB, routine_infrastructure, sqlerFmpListener, probe:999
MESSAGE : FMP exiting with error. Last agent registered:
DATA #1 : Hexdump, 4 bytes
0xBFF2359C : 0000 0000
上述红色标明停止数据库的时候,数据库关闭时,服务出现问题。造成数据库关闭不彻底,F1DB01数据库仍有DB2进程存在,而且磁盘无法被节点2接管的状态。
找到问题原因。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/8334342/viewspace-616017/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/8334342/viewspace-616017/