收到用户反映无法查询,查询返回一个有关无法访问数据文件的报错。
环境solaris10+oracle10204 rac。
系统log看到很多IO类错误:
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] Requested Block: 1765506 Error Block: 1765506
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] Vendor: IBM Serial Number:
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] Sense Key: Unit Attention
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] ASC: 0x8b (), ASCQ: 0x2, FRU: 0x0
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g600a0b800047457a000004f149405fd5 (ssd12):
Jun 16 11:50:30 sspu-sso Error for Command: write(10) Error Level: Retryable
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] Requested Block: 1576986 Error Block: 1576986
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] Vendor: IBM Serial Number:
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] Sense Key: Unit Attention
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] ASC: 0x8b (), ASCQ: 0x2, FRU: 0x0
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g600a0b800047457a000004f149405fd5 (ssd12):
Jun 16 11:50:30 sspu-sso Error for Command: read(10) Error Level: Retryable
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] Requested Block: 7018 Error Block: 7018
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] Vendor: IBM Serial Number:
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] Sense Key: Unit Attention
Jun 16 11:50:30 sspu-sso scsi: [ID 107833 kern.notice] ASC: 0x8b (), ASCQ: 0x2, FRU: 0x0
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g600a0b800047457a000004f149405fd5 (ssd12):
Jun 16 11:50:31 sspu-sso Error for Command: read(10) Error Level: Retryable
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.notice] Requested Block: 7018 Error Block: 7018
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.notice] Vendor: IBM Serial Number:
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.notice] Sense Key: Unit Attention
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.notice] ASC: 0x8b (), ASCQ: 0x2, FRU: 0x0
Jun 16 11:50:31 sspu-sso scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g600a0b800047457a000004f149405fd5 (ssd12):
Jun 16 11:50:31 sspu-sso Error for Command: read(10) Error Level: Retryable
2号节点启动不了。oracle的日志故障时间无记录。(这点很奇怪,后面解释猜测的原因)
怀疑存储有问题,去机房看了ok,没坏。
回到主机端查看,ASM中有一个数据文件的online_status为recover。提示需要media recovery。
在1号几点recover该表空间,再手工online,问题解决。
回头查看故障原因。发现2号节点跟目录满了。
将垃圾数据清理后,启动数据库成功。
由此猜测,是不是2号节点跟目录满了,造成2号节点instance crash了。当时数据文件是属于2号节点主管的,造成数据文件需要recovery。(奇怪的是主机都重启过了,1号节点正常启动的,为什么没有自动recover该数据文件?)如果数据库实例是crash的,那alert_log里是可能没有信息的。但1号节点应该没有崩溃,同样没有报错,不理解。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/7969839/viewspace-700099/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/7969839/viewspace-700099/