1.故障情况
3节点rac,安装完成运行正常,随着接入系统变多负载变大,突然一天有一个节点被提出集群,重新将节点加入集群,依然被踢出。两个节点运行就很正常,后台日志爆出大量IPC Send timeout detected错误。
2.检查分析
检查netstat -s发现packet reassembles failed指标大量增加,通过分析得出,相较于2节点rac,3节点之间通信的数据量会增加很多,随着系统负载的加大就造成了包重组大量失败。
3.解决办法
修改如下参数
net.ipv4.ipfrag_high_thresh = 16777216 --default 4M net.ipv4.ipfrag_low_thresh = 15728640 -- default 3M net.ipv4.ipfrag_time = 120 --default 30