适用于oracle 企业版的9.0.1.0到11.2.0.3之间的版本
症状
如果集群中节点的私网网卡的mtu(最大传输单元)参数不一致,那么rac 实例将不能够启动
改变
修改网络配置
原因
私网网卡的MTU大小是被设置了的。如下例子中有集群有两个节点,2块网卡。
节点1网卡信息
node 1
eth0 Link encapEthernet HWaddr 000E0C084BD5
inet addr xxx.x.x.x Bcastxxx.x.x.x Mask255.255.255.0
inet6 addr fe8020ecfffe084bd564 ScopeLink
UP BROADCAST RUNNING MULTICAST MTU9000 Metric1
节点2网卡信息
node 2
eth0 Link encapEthernet HWaddr 000E0C080359
inet addr xxx.x.x.x Bcastxxx.x.x.x Mask255.255.255.0
inet6 addr fe8020ecfffe0835964 ScopeLink
UP BROADCAST RUNNING MULTICAST MTU1500 Metric1
如果 配置的两块网卡的MTU大小不一致,那么启动时,将会hang住并在alert日志中报错
Tue Mar 1 015035 2005
lmon registered with NM - instance id 2 (internal mem no 1)
Tue Mar 1 015036 2005
Reconfiguration started (old inc 0, new inc 2)
List of nodes
0 1
Global Resource Directory frozen
Update rdomain variables
Communication channels reestablished
domain 0 valid = 0 according to instance 0
Tue Mar 1 015544 2005
IPC Send timeout to 0.0 inc 9 for msg type 53 from opid 5
Tue Mar 1 015925 2005
Trace dumping is performing id=[cdmp_20050301095925]
Tue Mar 1 015931 2005
Reconfiguration started (old inc 2, new inc 3)
List of nodes
1
你能明显的在alert日志和后台进程lmd和lmon的trace中找到time-out的信息
解决方法
通过使用oradebug确认oracle RAC使用的网卡 Metalink note 181489.1
检查网络设置 ifconfig sbinifconfig eth0
指定一个合适所有网卡的包大小来ping 网卡ip 使用参数-M 来避免包分割
ping nodename -s biggest-size-that fits -M do
在集群中所有节点配置私网的网卡有相同的mtu大小