oracle rac 2个节点故障 (sun os)

原创 2016年08月31日 12:49:47

今天同事在巡检过程中,发现了一个致命的问题,双机故障,我们所谓的rac就是保证至少1个节点可用, 结果2个节点都down了, 如何给客户交代?

oracle系统如此之贵,结果中断了业务,这个问题有点严重了。  说得吓人。。。偷笑

来,我们直接看故障点:


1.在crsctl status res -t 的时候,看到DG是offline的, 然后instance是down的。

   分析:

         down机可能原因

        1.硬件故障导致机器重启,磁阵权限丢失,asm拉不起,可以先检查磁盘状态和权限。

        2. 数据库压力过大,控制器出问题,导致磁盘dismount

        3. oracle bug ,需要打补丁

 

检查权限(2个节点都要看):

     


 


2. 可能是同事处理过,说已经恢复了系统。

但给我说,节点1有个crs没有启动。



节点2查看整个集群状态

$ crsctl status res -t
--------------------------------------------------------------------------------
NAME           TARGET  STATE        SERVER                   STATE_DETAILS       
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.DG01_CRS.dg
               ONLINE  ONLINE       db2                                          
ora.DG02_DATA.dg
               ONLINE  ONLINE       db2                                          
ora.DG02_EDATA.dg
               ONLINE  ONLINE       db2                                          
ora.DG03_REDO01.dg
               ONLINE  ONLINE       db2                                          
ora.DG04_REDO02.dg
               ONLINE  ONLINE       db2                                          
ora.LISTENER.lsnr
               ONLINE  ONLINE       db2                                          
ora.asm
               ONLINE  ONLINE       db2                                          
ora.gsd
               OFFLINE OFFLINE      db2                                          
ora.net1.network
               ONLINE  ONLINE       db2                                          
ora.ons
               ONLINE  ONLINE       db2                                          
ora.registry.acfs
               ONLINE  ONLINE       db2                                          
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.LISTENER_SCAN1.lsnr
      1        ONLINE  OFFLINE                                                   
ora.cvu
      1        ONLINE  OFFLINE                                                   
ora.db1.vip
      1        ONLINE  OFFLINE                                                   
ora.db2.vip
      1        ONLINE  ONLINE       db2                                          
ora.oc4j
      1        ONLINE  ONLINE       db2                                          
ora.scan1.vip
      1        ONLINE  OFFLINE                                                   
ora.unicom.dataclient.svc
      1        ONLINE  OFFLINE                                                   
      2        ONLINE  ONLINE       db2                                          
ora.unicom.dataldr.svc
      1        ONLINE  OFFLINE                                                   
      2        ONLINE  ONLINE       db2                                          
ora.unicom.db
      1        ONLINE  OFFLINE                                                   
      2        ONLINE  ONLINE       db2                      Open   



节点1查看crs状态

$ crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online


当然crs是无法用的,给集群管理增加了负担。
$ crsctl status res -t
CRS-4563: Insufficient user privileges.

CRS-4000: Command Start failed, or completed with errors.


查看进程,发现在节点1,没有crsd.bin , 但css has 等都是有的,

那么我们单独启动节点1 的 crs



查看节点1 进程




再查看节点1 整个crs的状态



等3分钟,因为有个刷新的过程,拉起其他进程的过程。

我们再查看整个集群



到这里 2个节点就好了。








做到这里,说明运维的部分已经做完了,

那么我们不仅仅是运维,更多是开发dba的范围, 承担系统架构,性能优化,应用优化。 这样做好了,就少一些运维。


-- 下面继续分析, 如何避免数据库压力大,有优化的余地吗? 答案是肯定的----  > 有

没有完美的系统,没有绝对的高手,只有在不断研究,才不断进步。


明天补充说明 从AWR分析,整个系统的性能问题。



版权声明:本文为博主原创文章,未经博主允许不得转载。

oracle rac 12c环境脱离节点故障重建

#oracle用户在正常节点删除故障节点实例 dbca -silent -deleteInstance -nodeList rac3 -gdbName rdato -instanceName rda...

Oracle 11g RAC 故障之--Instance 启动失败

Oracle 11g RAC  故障之--Instance 启动失败系统环境:操作系统:RedHat EL5.5Cluster:           GI 11.2.0.1.0数据库软件:Oracle...
  • lqx0405
  • lqx0405
  • 2015年03月31日 11:59
  • 653

RAC故障处理一例

上周六午夜12点刚要睡觉,电话响起,这个时候来电话肯定没啥好事,一看手机号码不认识,通了电话才知道是我们外聘的HP工程师在客户现场处理故障,客户是两台HP小型机做了一个两个节点的RAC,由于客户的原因...
  • orion61
  • orion61
  • 2014年05月27日 17:52
  • 1233

Oracle 11GR2 RAC节点crash故障分析

  • 2015年04月30日 11:43
  • 263KB
  • 下载

Oracle RAC 11.2.0.3 节点CRS无法启动报:no network hb 故障解决方法

软件版本:oracle rac 11.2.0.3,补丁打到最新11.2.0.3.5 故障现象:Oracle双节点组成RAC,RAC软件安装在节点1上;运行一段时间后,节点2日志报“网络通信故障”长时...

Oracle 11g RAC 添加新节点及故障解决案例

Oracle 11g RAC 添加新节点及故障解决案例系统环境:操作系统:RedHat EL55集群:      Oracle 11g GIOracle:   Oracle 11gR2一、配置新的节点...
  • lqx0405
  • lqx0405
  • 2015年03月31日 11:58
  • 2232

Oracle 11g RAC 添加节点故障之--CRS资源启动故障

Oracle 11g RAC 添加节点故障之--CRS资源启动故障系统环境:操作系统:RedHat EL5.5集群软件: GI 11G数据库软件:Oracle 11.2.0.1故障原因:    由于新...
  • lqx0405
  • lqx0405
  • 2015年03月31日 11:59
  • 762

文档 ID 1324574.1 11gR2 RAC 服务在实例关闭时不会故障转移到其他节点

11gR2 RAC Service Not Failing Over To Other Node When Instance Is Shut Down (文档 ID 1324574.1) 11gR2...

文档 ID 1324574.1 11gR2 RAC 服务在实例关闭时不会故障转移到其他节点

11gR2 RAC Service Not Failing Over To Other Node When Instance Is Shut Down (文档 ID 1324574.1) 11gR2...

RAC ORACLE 节点有关操作

  • 2016年01月27日 16:35
  • 6KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:oracle rac 2个节点故障 (sun os)
举报原因:
原因补充:

(最多只允许输入30个字)