背景概述
客户的10G数据库VIP出现宕,引起VIP负载到另一个节点
事件支持细节
04:29:56.378 一号机器VIP出现 went OFFLINE unexpectedly,当天出现这个VIP漂移的故障后为检查VIP宕掉的原因,
对VIP资源启动DEBUG 5模式:./crsctl debug log res "orahostname1.vip:5"
04:38:36.047 一号节点VIP出现 went OFFLINE unexpectedly。
根据ora.hostname.vip.log日志显示,出现VIP宕原因基本可以确定为公网IP与缺省网管通讯不畅引起。
根据Oracle管方建议,调整racgvip程序中的参数从FAIL_WHEN_DEFAULTGW_NO_FOUND=1修改成
FAIL_WHEN_DEFAULTGW_NO_FOUND=0
但是调整完后故障依旧
04:17:37.822: [ CRSRES][11025]32ora.hostname1.vip on hostname1
went OFFLINE unexpectedly
为明确原因,再次收集ora.hostname1.vip.log及racgvip信息进行分析
分析结果如下:
在racgvip程序中,有如下代码
#
Check the status of the interface thro' pinging gateway
if [
-n "$DEFAULTGW" ]
then
_RET=1
#
get base IP address of the interface
tmpIP=`$LSATTR
-El ${_IF} -a netaddr | $AWK '{print $2}'`
#
get RX packets numbers (bug8341569,9157855->bug9743421)
_O1=`$NETSTAT -n -I $_IF | $AWK "{ if (/^$_IF/) {print
\\$(NF-4); exit}}"`
x=$CHECK_