oracle 10g rac 网络故障处理

oracle rac对网络要求是非常高的,一些看似很小的网络故障往往导致整个集群的无法启动. 很多故障的报错不能简单通过metalink的处理方法,有时候可能适得其反,应该先查看系统最近是否出现变动,测试共享存储,无密码登陆,权限,hostname设置等。[@more@]

早上刚刚处理完因为存储故障导致不断重启的rac,把应用切换到异地的容灾集群,下午居然数据管理中心的8节点集群又挂了.不过不是不断重启,而是压根起不来.....

没办法帮忙把,早让他们找DBA的....现在也只能帮忙到底了.上去一检查,之前故障发生后,已经有人重启了所有机器,看了重启前的db和os日志,除了类似:

th_select_handler: Failed to retrieve procctx from ht. constr = [-1733291968] retval lht [-27] Signal CV.

没有什么特别的报错.要问问重启前的情况,人都不在。。。。

好累啊....8台的日志阿....

最后在一台的crs.log上发现不断重复这段错误:

2009-01-06 13:25:26.017: [ CSSCLNT][2541047328]clsssInitNative: connect failed, rc 9
2009-01-06 13:25:26.017: [ CRSRTI][2541047328]0CSS is not ready. Received status 3 from CSS. Waiting for good status ..
2009-01-06 13:25:27.423: [ COMMCRS][1084229984]clsc_connect: (0xb4c840) no listener at (ADDRESS=(PROTOCOL=ipc)(KEY=OCSSD_LL_dc-cs-01
_crs))

上metalink看看没啥特别相关的问题。

基本定位问题到:

1.ocr,voting disk的访问也就是共享存储

2.网络问题

看了下存储状态和权限,各台机器都没什么问题

尝试重启了下其他7台机器,发现重启后都正常了,唯独这台不一样。

检查网络设置,果然心跳网络的访问被改动了。。。改回来,重启,一切ok了,启动后发现有问题的那台只能注册自己的实例而无法注册别的节点的实例,估计又是防火墙策略的问题,果然调整好重启了监听就恢复正常了。等他们人来了一问,原来新加了别的机器,结果DHCP自动设置到这个网段造成网络冲突,至于那台改设置的机器么就不知道谁动咯。。。所以rac的心跳网络和共享存储一定要与别的环境隔离开,如同你可以在一台机器上起2个名字一样的实例但是生产环境没人会这样做一样,这也是规范。现在只能告诫他们别乱动了。。。。还有快点帮他们找个好的DW DBA。。。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/79686/viewspace-1015776/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/79686/viewspace-1015776/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值