1.故障概述
1.1.故障环境
服务器型号:鲲鹏920
云平台:浪潮云海OS
存储型号:AS5800G2
1.2.故障描述
鲲鹏物理机上运行5台虚拟机,其中4台虚拟机出现自动宕机现象,排查原因不明,宿主机内核日志提示大量ERROR信息。
1.3.基本信息
物理机系统为统信服务器操作系统,宕机虚拟机一台为统信系统,三台为友商麒麟系统。
现场人员联系硬件厂商及友商麒麟,确认后反馈硬件和麒麟操作系统没有问题。
磁盘多路径磁盘,使用的外接scsi存储。
2.故障分析
2.1.日志分析
通过现场发送的内核日志中可以查看,从开始就出现了纠正GPT的错误信息,直到虚拟机宕机。
根据GPT这种错误提示,该错误信息是GPT备用标头大小和实际当前检测到的物理硬盘大小不同或硬件老化才会打印该检测ERROR信息。
准备的配置例如(sda和sdb组成的RAID1)和实际物理硬盘大小不同,系统会进行纠正GPT从而发出该ERROR信息。如纠正完成后,再通过查询,就可以发现RAID盘的GPT磁盘分区信息正确;如果还是检测大小不同重复纠正,到达一定值会导致机器宕机。
在Redhat、华为、Ubuntu等社区中也出现过相应的解释,该问题不属于操作系统BUG。
3.结论
该报错流程属于操作系统正常处理逻辑,非操作系统问题。
可以建议存储厂家在协助排查一下。
下面为相关问题链接可简介:
https://gitee.com/openeuler/community/issues/I28XSA?from=project-issue
https://bugs.launchpad.net/ubuntu/+source/linux-azure/+bug/1828101
https://bugzilla.redhat.com/show_bug.cgi?id=996445