上周日,由于断电,公司所在的集群服务器在关机断电重启后,发现唯一的一个登陆节点主板出现了故障,以致于 log 节点的 Red Hat Enterprise 6 系统无法启动。
由于集群是生信所有分析工作的基础,我们所用的 IBM LSF 集群一共又30多个计算节点,其中还包括了 2 个大内存 fat 节点,log 节点挂掉后,整个生信部门几十号人的工作都没法正常进行,情况可谓是非常紧迫。负责硬件的同时在加班加点联系供应商更换主板后,终于可以把系统启动起来,但是问题也来了:
1. 系统启动后一直提示 "Network is unreachable" 错误,log 无法跟计算、管理、存储等节点进行网络连接!
2. 供应商负责硬件更换后就走人了,系统层面各种服务还是需要自己去解决。
这个文章主要参考散尽浮华(高级 Linux 运维工程师)在博客园的相关文章,对 Linux 服务器更换主板后,网卡识别失败的处理进行一下记录与分享,希望对大家有用。
1. 现象说明
公司 IDC 机房里的一台线上服务器硬件报警,最后排查发现服务器主板坏了,随即联系厂商进行更换主板,最后更换后,登录服务器,发现网卡绑定及 ip 信息都在,但是 ip 却 ping 不通了,进一步排查,重启网卡,提示之前的 eth0 和 eth1 网卡设备发现不了了,也就是说服务器主板更换后,之前的网卡设备都识别不了了!
主板更换后,重启并登陆服务器,发现之前的网卡设备(eth0、eth1、eth2、eth3)都没有了!
[root@kevin01 ~]# ifconfig -a
bond0 Link encap:Ethernet HWaddr 08:94:EF:5E:AE:72
inet addr:192.168.10.20 Bcast:192.168.10.255 Mask:255.255.255.0
inet6 addr: fe80::a94:efff:fe5e:ae72/64 Scope:Link
UP BROADCAST RUNNING MASTER MULTICAST MTU:1500 Metric:1
RX packets:75582 errors:0 dropped:0 overruns:0 frame:0
TX packets:58537 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:5890233 (5.6 MiB) TX bytes:4390537 (4.1 MiB)
lo Link encap:Local Loopback
inet addr:127.0.0.1 Mask:255.0.0.0
inet6 addr: ::1/128 Scope:Host
UP LOOPBACK RUNNING MTU:65536 Metric:1
RX packets:26 errors:0 dropped:0 overruns:0 frame:0
TX packets:26 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:1983 (1.9 KiB) TX bytes:1983 (1.9 KiB)
usb0 Link encap:Ethernet HWaddr 0A:94:EF:5E:AE:79
BROADCAST MULTICAST MTU:1500 Metric:1
RX packets:0 errors:0 dropped:0 overruns:0 frame:0
TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:0 (0.0 b) TX bytes:0 (0.0 b)