平台:
Node Name : rx8640a
Model : server rx8640
BIOS revision : 9.022
HP-UX version : B.11.23
Kernel whatstring : @(#) $Revision: vmunix: B11.23_LR FLAVOR=perf Fri Aug 29 22:35:38 PDT 2003 $
Number of CPU's : 8
Disabled CPU's : 0
CPU type : IA64 (1.6 Ghz)
CPU Architecture : IA-64 0
Load average : 0.35 0.36 0.38
故障描述:
例行检查时,发现无法连接本地ORACLE数据库
ps -ef | grep oracle 发现没有ORACLE进程,数据库服务没有启动
netstat -an | grep 1521 端口也没有处于监听状态
crs_stat 发现ORACLE CRS没有启动
ps -ef | grep cm 发现群集没有运行
cmruncl 启动群集,提示群集服务已切换到节点2,需要使用cmnodecl重新加入
cmnodecl 群集正常启动
奇怪群集服务为什么会自动停止,检查shudownlog日志发现前几天服务器crash自动重新启动
联系HP服务,要求先检查
/var/adm/shutdownlog 存在两条CRASH记录,没有其它发现
/var/adm/syslog 仅有restart记录,没有其它发现
/var/tombstones 不存在tx99的记录,说明没有硬件故障
继续要求检查crash dump
/var/adm/crash/crash.0下执行./crashinfo > crash.0.txt 生成可读crash dump文本文件,发送给HP工程师...
结果出来,HP工程师判断第二个cpu问题,今天更换cpu
更换完后,再继续观察
更换完cpu后,故障依旧。由于空调问题,机房温度过高(30度左右),HP工程师建议空调好了后继续处理。
空调修好了,温度降下来了,故障不再出现了。难道HP小型机这么脆弱?30度而已新机器啊
把最后一次dump发给HP工程师让他们继续分析真正原因
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/4670/viewspace-331175/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/4670/viewspace-331175/