今天是2017年10月25日,之前遇到一个客户来电,大体问题是:aix 5.3+oracle 11.2.0.1 数据库为rac。其中节点一因为本地主机磁盘损坏,导致aix系统损坏进而导致了oracle rac集群只剩一个节点的故障”
对于该问题,其实很简单,只要在存活节点删除之前数据库实例,在集群中删除故障节点信息后,新增节点即可。但在整个过程中遇到了各类问题(个人根据当时现状了解到,在我接手之前,已经被别人操作了太多东西)。特此记录下当时我处理问题的简要步骤以及遇到的各类问题:
操作步骤:
1、在存活节点查看节点信息是否为unpin状态,如果不是使用下面命令,将节点设置为unpin状态
crsctl unpin css -n(节点主机名)
2、在存活节点使用oracle账号通过dbca删除故障节点实例
3、在存活节点更新列表目录用户为oracle,命令如下:
cd $ORACLE_HOME/oui/bin
gui/bin
./runInstaller -updateNodeList ORACLE_HOME=$ORACLE_HOME "CLUSTER_NODES=zz-pthisd1"
4、使用crsctl stat res -t 查看是否有故障节点vip,如果存在手动删除服务,删除节点
srvctl stop vip -i racsrv4 -f
srvctl remove vip -i racsrv4 -f
crsctl delete node -n racsrv4(删除节点)
cluvfy stage -post nodedel -n raccrsv4(验证节