某企业所有业务系统及应用运行在由5台安装了ESXi 6.0的服务器组成的虚拟化环境中,已经稳定运行了多年,基本上没有出过问题。
今天下午企业工程师联系我,说单位的业务系统访问很慢。在业务系统中PING网关的延时超过2ms,平常都是小于1ms。近期单位服务器与网络没有改动。
检查发现有台物理主机内存报警(提示第20个内存插槽的内存有问题),如图1所示。
图1 内存有问题
将这台服务器置于维护模式,迁移虚拟机到其他主机时提示“等待数据失败……”、“迁移被取消,因为虚拟机内存的更改量超过可用网络带宽……”,如图2所示。
图2 迁移失败
如果手动迁移虚拟机到其他主机,原来需要几分钟的迁移迟迟不能完成(直到下午用了3个多小时才迁移完成一台)。因为我没在现场,我让用户分别登录每台ESXi主机,PING网关看延时和丢包情况,经过检查这五台主机中,只有一台延时在2~3ms,其他都在1ms以内,而延时在2~3ms的就是内存有故障的这台主机。
下午我到现场之后检查发现,一些服务器的网卡被识别为10Mb、100Mb,