RAC节点1reboot之后,节点1的资源为何没有failover到节点2?

原创 2013年12月11日 23:59:34
节点1reboot之后,节点1的资源为何没有failover到节点2?
现象:
客户咨询了一个问题,即在节点1的reboot过程中,通过监控,始终没有发现节点1的资源failover到了节点2,如下:
[oracle@rac2 ~]$ crs_stat -t
Name Type Target State Host
------------------------------------------------------------
ora.rac.db application ONLINE ONLINE rac2
ora....c1.inst application OFFLINE OFFLINE
ora....c2.inst application ONLINE ONLINE rac2
ora....SM1.asm application ONLINE OFFLINE
ora....C1.lsnr application OFFLINE OFFLINE
ora....ac1.gsd application OFFLINE OFFLINE
ora....ac1.ons application OFFLINE OFFLINE
ora....ac1.vip application OFFLINE OFFLINE
ora....SM2.asm application ONLINE ONLINE rac2
ora....C2.lsnr application ONLINE ONLINE rac2
ora....ac2.gsd application ONLINE ONLINE rac2
ora....ac2.ons application ONLINE ONLINE rac2
ora....ac2.vip application ONLINE ONLINE rac2
客户认为对于RAC这种高可用系统,当一个节点发生宕机或中断,理所当然运行于之上的资源应该会在另一个节点上运行,
否则像上面这种情况,应用会部分业务中断。

分析:
其实这是一个很基础的问题,对于资源,分为2种:local和global,
local包括:instance,asm,lsnr,gsd,ons,这些资源只能在本节点运行。
VIP是global资源,当1个节点发生故障导致VIP不能再该节点运行时,会failover到存活节点上继续提供服务。
既然是这样,那么我们便可以理解,节点1reboot时,gsd,ons,lsnr,asm,instance没有failover是正常的,
但是VIP呢?当节点1在reboot时,VIP应该会failover到节点2才是,为什么这一过程没有发生呢?
继续检查相关日志:
crsd.log
------------
2013-10-21 10:14:25.608: [ CRSRES][1495542080] Attempting to stop `ora.rac1.vip` on member `rac1`
2013-10-21 10:14:26.628: [ CRSRES][1495542080] Stop of `ora.rac1.vip` on member `rac1` succeeded.


ocssd.log
---------------
[ CSSD]2013-10-21 10:06:03.987 [1332435264] >TRACE: clssgmReconfigThread: completed for reconfig(277552174), with status(1)
[ CSSD]2013-10-21 10:06:04.632 [1269496128] >TRACE: clssgmCommonAddMember: clsomon joined (1/0x1000000/#CSS_CLSSOMON)
[ CSSD]2013-10-21 10:28:25.946 >USER: Oracle Database 10g CSS Release 11.1.0.6.0 Production Copyright 1996, 2004 Oracle. All rights reserved.
[ CSSD]2013-10-21 10:28:25.946 >USER: CSS daemon log for node rac1, number 1, in cluster rac_cluster
[ clsdmt]Listening to (ADDRESS=(PROTOCOL=ipc)(KEY=rac1DBG_CSSD))

日志记载在节点reboot前有手动停止节点1VIP的操作,这就是原因所在了,手动停止VIP并不会触发VIP failover的动作,此时CRS会认为这是一个正常的维护操作。
CRS只有探测到节点1出现故障(例如网卡故障,PUBLIC IP网络故障)时才会进行failover的操作。

节点2主机关停之后,VIP并没有failover到节点一

现象: 节点2主机关停之后,VIP并没有failover到节点一 如下所示,在节点一查看,VIP并没有FAILOVER过来。 [root@MAA01 ~]# ifconfig eth0 L...

验证RAC节点reboot节点vip资源和服务会切换到另外节点,然后再手动恢复故障节点

RAC环境为两个节点环境节点1为udb1节点为udb2,集群环境启动的正常   1. 在节点1上增加一个服务mdspr并启动服务 节点1udb1为主用节点,节点2udb2为备用节点 mdsp01...

2.配置RAC节点互通

  • 2011年12月16日 17:04
  • 4KB
  • 下载

Oracle 11GR2 RAC节点crash故障分析

  • 2015年04月30日 11:43
  • 263KB
  • 下载

11g RAC 加节点 之 手动添加vip 资源

今天在给一套2节点rac 添加一个节点3时碰到几个问题; 1.原生产rac 环境私网网卡,没有使用多张冗余网卡,为保证gi 稳定性,禁用了haip;     but ,埋下了一个不是坑的坑!!!!!!...
  • royjj
  • royjj
  • 2015年07月23日 15:41
  • 1271

Oracle 11gR2 RAC 添加节点 案例

  • 2015年10月09日 15:36
  • 607KB
  • 下载

rac集群节点2宕机

  • 2015年09月12日 11:07
  • 33KB
  • 下载

Oracle 11g RAC 添加节点故障之--CRS资源启动故障

Oracle 11g RAC 添加节点故障之--CRS资源启动故障系统环境:操作系统:RedHat EL5.5集群软件: GI 11G数据库软件:Oracle 11.2.0.1故障原因:    由于新...
  • lqx0405
  • lqx0405
  • 2015年03月31日 11:59
  • 763

Oracle 11gR2 RAC删除节点实战 案例

  • 2015年10月09日 16:16
  • 476KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:RAC节点1reboot之后,节点1的资源为何没有failover到节点2?
举报原因:
原因补充:

(最多只允许输入30个字)