1 内容概述
正常运行的一套双节点RAC,现在有需求,需要重启一下实例,停止实例在启动实例时,报磁盘组不能挂载。如下:
2 内容分析
警告日志显示有磁盘丢失。
asmdg 查看磁盘组是正常挂载的。
尝试重新挂载 ora_data 磁盘组。报错磁盘组不完整。
检查磁盘组的3块磁盘,都存在,而且使用ASMFD 不存在权限问题。
检查磁盘头状态,发现DATA1 和DATA2 为CANDIDATE ,到这里基本可以判断磁盘头损坏。
可以使用kfed 确认,INVALID 代表不是ASM 磁盘。
从版本10.2.0.5开始ASM 会对disk header做一个额外的备份。即第二AU 的倒数第二个block中备份了一份KFBTYP_DISKHEAD。这个ASM Disk header的作用是当真的KFBTYP_DISKHEAD被意外覆盖或损坏时可以使用Oracle 工具 KFED使用repair选项来修复Disk header。
计算方法:AU中包含的备份块block num 等于[AU_SIZE/block_size]*2-2因为第一个块从0计数]。
可以计算结果为:
-
1M AU在510
-
2M AU在1022
-
4M AU在2046
-
8M AU在4094
-
16M AU在8190
-
32M AU在16382
-
64M AU在32766
可以通过kfed 命令检查备份块信息,可以看到正常读取到了磁盘头信息:
kfed read dev/sdi blkn=2046 | egrep 'kfbh.type|ausize|dsknum|dskname|grpname|fgname|blksize'
3 内容处理
尝试恢复asm 磁盘头
确定损坏磁盘的备份信息:
kfed read dev/sdi blkn=2046 | egrep 'ausize|dsknum|dskname|grpname|fgname|blksize'
kfed read dev/sdj blkn=2046 | egrep 'ausize|dsknum|dskname|grpname|fgname|blksize'
从备份数据块备份磁盘信息,多做备份还是很必要的,也可以使用dd 备份磁盘的前50M。
kfed read /dev/sdi blkn=2046 >sdi.diskhead
kfed read /dev/sdj blkn=2046 >sdj.diskhead
恢复和检查asm 磁盘头信息,恢复时需要指定ausz ,否则非默认AU 会报错。
kfed repair /dev/sdi aus=4194304
kfed read /dev/sdi | egrep 'ausize|dsknum|dskname|grpname|fgname|blksize'
kfed repair /dev/sdj aus=4194304
kfed read /dev/sdj | egrep 'ausize|dsknum|dskname|grpname|fgname|blksize'
在次尝试挂载磁盘组,成功挂载。
alter diskgroup ora_data mount;
启动数据库一切正常。
startup
保险起见,重启集群检查数据库是否可以正常自动启动。
srvctl stop database -db orcl
节点1:
crsctl stop crs
reboot
节点2:
crsctl stop crs
reboot
备注:如果kfed repair 修复不成功,也可以尝试使用kefd merge 恢复之前备份的文件。
kfed merge /dev/sdi aus=4194304 sdi.diskhead
kfed merge /dev/sdj aus=4194304 sdj.diskhead
此方法只使用于磁盘前4k 损坏,如果是整个磁盘被格式化并写入数据,此方法无效。还是只能使用备份恢复整个数据库。
参考MOS 文档:
How To Restore/Repair/Fix An Overwritten (KFBTYP_INVALID) ASM Disk Header (First 4K) 10.2.0.5, 11.1.0.7, 11.2 And Onwards (Doc ID 1088867.1)