oracle rac节点重启的原因,由重启引起的Oracle RAC节点宕机分析及追根溯源

作者裴征峰通过分析多起Oracle RAC节点宕机事件,发现由于Bug 11704113导致的crsd.bin内存泄漏,使ocssd.bin内存使用率上升,触及HP-UX的maxdsiz_64bit限制,从而引起节点重启。解决方案包括打补丁或定期监控并手动重启CRS。
摘要由CSDN通过智能技术生成

作者介绍

裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g、OCP 11g、OCM11g。超八年Oracle服务经验,擅长数据库故障诊断和性能调优。目前主要从事客户的现场维护、重大问题的解决、数据库性能分析、二线服务质量保证等工作。

1背景说明

某省份的电信业务系统由于业务量较大,按地市划分部署在4套配置相同的RAC上,相同主机版本,相同的CRS和数据库版本。该系统已正常运行3年多,其间也有重启主机等正常维护操作。从4月24日 开始,这个系统的4套RAC的节点,一个接一个地宕机重启,但每次都不是同一个节点。整理的宕机情况列表如下:

系统 宕机时间

-----------------

xx1db01 04-24

xx1db02

xx2db01 07-30

xx2db02 07-23

xx3db01 08-19

xx3db02 07-27

xx4db01

xx4db02

这4套RAC是3年前安装的,平时运行非常稳定,基本没有问题,从4月份开始有节点宕机,并且在7,8月份宕机频率非常高。但有点比较奇怪,每次宕机都是不同的节点,没有相同的节点发生宕机。由于配置了业务隔离,所以RAC宕一个节点,对业务影响不大,但是如此大规模的节点宕机,肯定有一些共性的问题。

每次宕机基本为ocssd.bin进程出错,直接重启节点。ocssd.bin报错的日志基本为:

clssscExit: CSSD signal 11 in thread GMClientListener

这4套RAC的配置如下:

主机版本:HP-UX B.11.31 U ia64

数据库CRS版本为:10.2.0.5.0(未打PSU)

数据库版本为:10.2.0.5.8(PSU号:13923855)

安装了Veritas Storage Foundataion,使用VCS集群文件系统。

24月24日宕机分析过程

4月24日,xx1db01节点宕机,这是这套业务系统的第一次节点宕机。由于没有安装OSWatch工具,无法得知宕机时操作系统资源情况。

检查操作系统日志,没有发现报错信息。这可能是系统直接重启时,还没有来得及把内存中的信息刷到磁盘。检查数据库的alert日志,宕机重启时数据库实例没有异常信息。

检查ocssd.log,发现如下报错:

clssscExit:CSSD signal 11 in thread这个报错以前没有碰见过。

对这个报错的相关解释:当

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值