老农民挖数据

最近在搞java

oracle rac 2个节点故障 (sun os)

今天同事在巡检过程中,发现了一个致命的问题,双机故障,我们所谓的rac就是保证至少1个节点可用, 结果2个节点都down了, 如何给客户交代?

oracle系统如此之贵,结果中断了业务,这个问题有点严重了。  说得吓人。。。偷笑

来,我们直接看故障点:


1.在crsctl status res -t 的时候,看到DG是offline的, 然后instance是down的。

   分析:

         down机可能原因

        1.硬件故障导致机器重启,磁阵权限丢失,asm拉不起,可以先检查磁盘状态和权限。

        2. 数据库压力过大,控制器出问题,导致磁盘dismount

        3. oracle bug ,需要打补丁

 

检查权限(2个节点都要看):

     


 


2. 可能是同事处理过,说已经恢复了系统。

但给我说,节点1有个crs没有启动。



节点2查看整个集群状态

$ crsctl status res -t
--------------------------------------------------------------------------------
NAME           TARGET  STATE        SERVER                   STATE_DETAILS       
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.DG01_CRS.dg
               ONLINE  ONLINE       db2                                          
ora.DG02_DATA.dg
               ONLINE  ONLINE       db2                                          
ora.DG02_EDATA.dg
               ONLINE  ONLINE       db2                                          
ora.DG03_REDO01.dg
               ONLINE  ONLINE       db2                                          
ora.DG04_REDO02.dg
               ONLINE  ONLINE       db2                                          
ora.LISTENER.lsnr
               ONLINE  ONLINE       db2                                          
ora.asm
               ONLINE  ONLINE       db2                                          
ora.gsd
               OFFLINE OFFLINE      db2                                          
ora.net1.network
               ONLINE  ONLINE       db2                                          
ora.ons
               ONLINE  ONLINE       db2                                          
ora.registry.acfs
               ONLINE  ONLINE       db2                                          
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.LISTENER_SCAN1.lsnr
      1        ONLINE  OFFLINE                                                   
ora.cvu
      1        ONLINE  OFFLINE                                                   
ora.db1.vip
      1        ONLINE  OFFLINE                                                   
ora.db2.vip
      1        ONLINE  ONLINE       db2                                          
ora.oc4j
      1        ONLINE  ONLINE       db2                                          
ora.scan1.vip
      1        ONLINE  OFFLINE                                                   
ora.unicom.dataclient.svc
      1        ONLINE  OFFLINE                                                   
      2        ONLINE  ONLINE       db2                                          
ora.unicom.dataldr.svc
      1        ONLINE  OFFLINE                                                   
      2        ONLINE  ONLINE       db2                                          
ora.unicom.db
      1        ONLINE  OFFLINE                                                   
      2        ONLINE  ONLINE       db2                      Open   



节点1查看crs状态

$ crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online


当然crs是无法用的,给集群管理增加了负担。
$ crsctl status res -t
CRS-4563: Insufficient user privileges.

CRS-4000: Command Start failed, or completed with errors.


查看进程,发现在节点1,没有crsd.bin , 但css has 等都是有的,

那么我们单独启动节点1 的 crs



查看节点1 进程




再查看节点1 整个crs的状态



等3分钟,因为有个刷新的过程,拉起其他进程的过程。

我们再查看整个集群



到这里 2个节点就好了。








做到这里,说明运维的部分已经做完了,

那么我们不仅仅是运维,更多是开发dba的范围, 承担系统架构,性能优化,应用优化。 这样做好了,就少一些运维。


-- 下面继续分析, 如何避免数据库压力大,有优化的余地吗? 答案是肯定的----  > 有

没有完美的系统,没有绝对的高手,只有在不断研究,才不断进步。


明天补充说明 从AWR分析,整个系统的性能问题。



阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/shushugood/article/details/52383757
个人分类: oracle_sql tuning
上一篇OVER(PARTITION BY)函数用法 oracle
下一篇hive的查询注意事项以及优化总结
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭