如果集群连接MTU大小是不同的时候,则实例无法启动。
应用于:
Oracle Server - Enterprise Edition - Version 9.0.1.0 to 11.2.0.3 [Release 9.0.1 to 11.2]
适用于所有平台。
关联的检查在2010年的6月7日
表现出的问题:
如果用于互连不同的簇成员节点的网卡的MTU值得大小不同时,RAC实例(S)将无法启动。
解决方法:
更改网卡设置。
造成的原因:
MTU的值设置在专用网络接口,例如,两个集群成员两接口:
node 1
eth0 Link encap:Ethernet HWaddr 00:0E:0C:08:4B:D5
inet addr: xxx.x.x.x Bcast:xxx.x.x.x Mask:255.255.255.0
inet6 addr: fe80::20e:cff:fe08:4bd5/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:9000 Metric:1
node 2
eth0 Link encap:Ethernet HWaddr 00:0E:0C:08:03:59
inet addr: xxx.x.x.x Bcast:xxx.x.x.x Mask:255.255.255.0
inet6 addr: fe80::20e:cff:fe08:359/64 Scope:Link
UP BROADCAST RUNNING MULTICAST *MTU:1500* Metric:1
如果设置了不同的MTU值之后,启动的时候hang住了,这个时候来检查一下alert日志:
lmon registered with NM - instance id 2 (internal mem no 1)
Tue Mar 1 01:50:36 2005
Reconfiguration started (old inc 0, new inc 2)
List of nodes:
0 1
Global Resource Directory frozen
Update rdomain variables
Communication channels reestablished
* domain 0 valid = 0 according to instance 0
Tue Mar 1 01:55:44 2005
IPC Send timeout to 0.0 inc 9 for msg type 53 from opid 5
Tue Mar 1 01:59:25 2005
Trace dumping is performing id=[cdmp_20050301095925]
Tue Mar 1 01:59:31 2005
Reconfiguration started (old inc 2, new inc 3)
List of nodes:
这是一个典型的实例,去查看alter日志,你可以看到超时的信息和后台进程的信息。
解决方法:
--确定使用的接口是通过使用oradebug Oracle RAC的IPC。
--检查网络配置,如ifconfig,如,/sbin/ifconfig eth0
--在网卡上,使用ping命令来检查多大的包合适,使用-M选项来阻止分片,例如:
ping <nodename> -s <biggest-size-that fits> -M do
-- 设置集群中所有用来作为群集之间连接的网卡一个统一的MTU值。
参考文献:
BUG:3328693 - ONE NODE IN RAC CLUSTER WILL NOT START UP LMON TIMEOUT DETECTED
NOTE:181489.1 - Tuning Inter-Instance Performance in RAC and OPS
应用于:
Oracle Server - Enterprise Edition - Version 9.0.1.0 to 11.2.0.3 [Release 9.0.1 to 11.2]
适用于所有平台。
关联的检查在2010年的6月7日
表现出的问题:
如果用于互连不同的簇成员节点的网卡的MTU值得大小不同时,RAC实例(S)将无法启动。
解决方法:
更改网卡设置。
造成的原因:
MTU的值设置在专用网络接口,例如,两个集群成员两接口:
node 1
eth0 Link encap:Ethernet HWaddr 00:0E:0C:08:4B:D5
inet addr: xxx.x.x.x Bcast:xxx.x.x.x Mask:255.255.255.0
inet6 addr: fe80::20e:cff:fe08:4bd5/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:9000 Metric:1
node 2
eth0 Link encap:Ethernet HWaddr 00:0E:0C:08:03:59
inet addr: xxx.x.x.x Bcast:xxx.x.x.x Mask:255.255.255.0
inet6 addr: fe80::20e:cff:fe08:359/64 Scope:Link
UP BROADCAST RUNNING MULTICAST *MTU:1500* Metric:1
如果设置了不同的MTU值之后,启动的时候hang住了,这个时候来检查一下alert日志:
lmon registered with NM - instance id 2 (internal mem no 1)
Tue Mar 1 01:50:36 2005
Reconfiguration started (old inc 0, new inc 2)
List of nodes:
0 1
Global Resource Directory frozen
Update rdomain variables
Communication channels reestablished
* domain 0 valid = 0 according to instance 0
Tue Mar 1 01:55:44 2005
IPC Send timeout to 0.0 inc 9 for msg type 53 from opid 5
Tue Mar 1 01:59:25 2005
Trace dumping is performing id=[cdmp_20050301095925]
Tue Mar 1 01:59:31 2005
Reconfiguration started (old inc 2, new inc 3)
List of nodes:
这是一个典型的实例,去查看alter日志,你可以看到超时的信息和后台进程的信息。
解决方法:
--确定使用的接口是通过使用oradebug Oracle RAC的IPC。
--检查网络配置,如ifconfig,如,/sbin/ifconfig eth0
--在网卡上,使用ping命令来检查多大的包合适,使用-M选项来阻止分片,例如:
ping <nodename> -s <biggest-size-that fits> -M do
-- 设置集群中所有用来作为群集之间连接的网卡一个统一的MTU值。
参考文献:
BUG:3328693 - ONE NODE IN RAC CLUSTER WILL NOT START UP LMON TIMEOUT DETECTED
NOTE:181489.1 - Tuning Inter-Instance Performance in RAC and OPS