集群起不来oracle,IBM小机ORACLE RAC集群起不来的问题处理过程

IBM小机ORACLE RAC集群起不来的问题处理过程[@more@]项目要解决问题的描述

1操作系统版本AIX5.3

2Oracle版本Oracle10

3问题描述两节点通过hacmp实现RAC集群,机器搬迁过后,重启系统之后,发现只能同时启动其中一个节点的服务,另一个节点从asm、database到上层服务都无法启动。

处理过程描述

1、检查日志,发现rac没有心跳,ping私有网络不通,经检查是网线没有通;

2、网线连接之后,重启了rac,发现集群仍不能正常启动,继续查看相关日志,发现共享磁道设置有问题。

查看Oracle Release Notes发现如下情况:

To enable simultaneous access to a disk device from multiple nodes, you must set the appropriate Object Data Manager (ODM) attribute listed in the following table to the value shown, depending on the disk type:

Disk Type Attribute Value

SSA, FAStT, or non-MPIO-capable disks reserve_lock no

ESS, EMC, HDS, CLARiiON, or MPIO-capable disks

reserve_policy no_reserve

通过查看,该系统用的存储是MPIO-capable disks,则对共享存储的每一张磁盘执行如下命令(盘号需要修改):

chdev -l hdisk2 -a reserve_policy=no_reserve

重新启动HACMP,这时集群能正常启动了。

3、RAC集群能正常启动后,经过一段时间的观察,发现VIP出现漂移的情况,开启vip的5级debug以及查看racgvip,发现是默认网关检查通不过,引起vip漂移,ping该网卡的默认网关ping不通,但vip服务大部分时间正常,综合情况分析,该处为oracle的一个bug。metalinkDefault Gateway [ID 399213.1]说明了其中的原因,可下载该文档查看。

修改$CRS_HOME/bin/racgvip脚本,硬编码DEFAULTGW为公共IP得以解决。但该方法有一定潜在风险,即DEFAULTGW所指定的机器需要保持稳定,保证网络连通性。以后在往集群中加入新节点时,需要检查一下该点设置。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值