今天早上一上班就接到用户的电话说有一个实例下面所有的数据库都不能连接,但是可以TELNET上AIX。结果上去一看发现整个实例就不知道什么时候CRASH了!来不及分析原因就立即一个db2start,将实例重新启动,接着用db2 list utilities show detail,看到实例已经开始对下面挂的三个库做CRASH RECOVERY。运气还是比较好的,10分钟不到三个库都恢复正常使用。这时候才有机会考虑问题出在什么地方,第一时间去看db2diag.log,它不知道什么时候已经涨到6GB的庞然怪物,用tail查看最后的记录,一直翻了59W行,大多数都是类似以下的信息:
2010-06-30-16.29.51.318156+480 I6627683116A332 LEVEL: Error
PID : 1389374 TID : 1 PROC : db2pfchr 0
INSTANCE: db2inst3 NODE : 000
FUNCTION: DB2 UDB, buffer pool services, sqlbFreeUpBlock, probe:20
RETCODE : ZRC=0x8502002C=-2063466452=SQLB_BPFULL
"no available buffer pool pages"
2010-06-30-16.29.51.318281+480 I6627683449A376 LEVEL: Error
PID : 1389374 TID : 1 PROC : db2pfchr 0
INSTANCE: db2inst3 NODE : 000
FUNCTION: DB2 UDB, buffer pool services, sqlbGetVictimBlock, probe:40
MESSAGE : ZRC=0x8502002C=-2063466452=SQLB_BPFULL
"no available buffer pool pages"
DATA #1 :
bufferpool ID 3
也怪我,平时觉得机器运转都比较正常也很少留意这个db2diag.log,还真不知道这样的信息是从什么时候开始出现的。不过可以肯定的是从6月29号开始到7月1号早上CRASH之前都不断在报这样的错。
6月30号晚上还发生了另一件不知道是否有关联的事情。当晚一个备份到TSM带库的自动作业,开始之后由于带库的原因就一直在等待磁带,既没有报错,也没法继续,这种状态一直持续到CRASH发生前的一刻。备份使用了INCLUDE LOGS 和 ONLINE 两个参数的。
请教各位,这错误信息是说明什么问题,和这次的CRASH有什么关系?或者会不会是一直没法进行下去、包含日志的在线备份导致CRASH?另外如何做进一步分析?我看到在db2dump目录就CRASH前产生了若干个"*.001"的文件。请大家多多指点,谢谢!
2010-06-30-16.29.51.318156+480 I6627683116A332 LEVEL: Error
PID : 1389374 TID : 1 PROC : db2pfchr 0
INSTANCE: db2inst3 NODE : 000
FUNCTION: DB2 UDB, buffer pool services, sqlbFreeUpBlock, probe:20
RETCODE : ZRC=0x8502002C=-2063466452=SQLB_BPFULL
"no available buffer pool pages"
2010-06-30-16.29.51.318281+480 I6627683449A376 LEVEL: Error
PID : 1389374 TID : 1 PROC : db2pfchr 0
INSTANCE: db2inst3 NODE : 000
FUNCTION: DB2 UDB, buffer pool services, sqlbGetVictimBlock, probe:40
MESSAGE : ZRC=0x8502002C=-2063466452=SQLB_BPFULL
"no available buffer pool pages"
DATA #1 :
bufferpool ID 3
也怪我,平时觉得机器运转都比较正常也很少留意这个db2diag.log,还真不知道这样的信息是从什么时候开始出现的。不过可以肯定的是从6月29号开始到7月1号早上CRASH之前都不断在报这样的错。
6月30号晚上还发生了另一件不知道是否有关联的事情。当晚一个备份到TSM带库的自动作业,开始之后由于带库的原因就一直在等待磁带,既没有报错,也没法继续,这种状态一直持续到CRASH发生前的一刻。备份使用了INCLUDE LOGS 和 ONLINE 两个参数的。
请教各位,这错误信息是说明什么问题,和这次的CRASH有什么关系?或者会不会是一直没法进行下去、包含日志的在线备份导致CRASH?另外如何做进一步分析?我看到在db2dump目录就CRASH前产生了若干个"*.001"的文件。请大家多多指点,谢谢!
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/10990946/viewspace-693968/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/10990946/viewspace-693968/