华为FusionCompute虚拟化平台升级操作文档
一、问题分析与解决思路
问题描述:在一段时间内,FC平台中的多台CNA主机偶发性自动重启,随即导致主机中部署的虚拟机自动重启,严重影响线上业务。
解决方案:经研究,基本上排除了是服务器硬件问题导致的可能性,怀疑是FC虚拟化平台的问题。于是,收集了自动重启主机中的日志,提供给华为工程师分析,得出以下结论。
【日志收集方法】
(1)使用putty工具登录虚拟机所在的主机(以“gandalf”用户,通过管理IP地址登录,默认密码为Huawei@CLOUD8);
(2)执行su命令,并按提示输入“root”用户的密码,切换至“root”用户;
(3)执行TMOUT=0命令,防止“PuTTY”超时退出;
(4)(cp -r/var/log/CNA04/04/19 /home/GalaX8800/),注意CNA04为主机名,不同主机主机名不同,04为日期,此处以4日举例,19是4号19:00,还请根据实际告警产生日期修改;
(5)(chown -Rgandalf:GalaX8800 /home/GalaX8800/19);
(6)使用gandalf账户通过winscp登录主机,将目录/home/GalaX8800/19/拷贝出来并打包;
(7)拷贝完成后,请删除19目录(rm -r/home/GalaX8800/19/)
【日志分析结果】
Jun 4 20:00:02 CAN04 syslog-ng[5110]: Newconfiguration initialized;
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] xen_clocksource_read: 216918callbacks suppressed
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] clocksource/9: Time wentbackwards: ret=34873882edfc52 delta=-17243953 shadow=34873876d79440offset=c16ac2b
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] clocksource/9: Time wentbackwards: ret=34873882eeecea delta=-17239885 shadow=34873876d79440offset=c1759f6
Jun 4 20:00:02 CAN04 kernel: [14785708.976568] clocksource/3: Time wentbackwards: ret=34873883467f75 delta=-11500738 shadow=348738772ee0a9offset=c17a101
FusionCompute V100R006C00U1版本存在的问题一
【预警公告内容】
FusionSphere虚拟化平台TSC时钟回退造成CPU死锁问题预警
预警编号:EIT-P-B-201703
重要程度 |
重要 |
紧急程度 |
紧急 |
涉及产品 |
FusionSphere |
||
涉及版本 |
FusionCompute V100R006C00 FusionCompute V100R006C00U1 |
||
涉及应用 范围 |
时钟偏差超过10MS,系统频繁打印时钟回退日志。 |
||
发布时间 |
2017-1-16 |
||
预防要求 |
按本资料指导进行规避或根本解决。 |
||
参考工时 |
0.5人天 |
【问题描述】
上述涉及版本中,多核CPU服务器使用TSC时钟源,会概率触发时钟偏差。当不同CPU间的时钟偏差超过10MS,内核就会频繁打印时钟回退的日志。内核调度实时任务的处理逻辑存在因打印时钟回退日志造成CPU死锁的问题。
【触发概率】
涉及版本 |
触发条件 |
FusionCompute V100R006C00 FusionCompute V100R006C00U1 |
时钟偏差超过10MS,系统频繁打印时钟回退日志。 |
【影响风险】
频繁打印时钟回退日志,造成CPU出现低概率死锁,引起主机复位。
【问题判断】
使用gandalf用户登录CNA节点,切换到root用户,执行grep "Time went backwards" /var/log/messages命令,如果有回显,表示涉及此预警问题。如下截图表示没有回显,暂不涉及此预警。
【解决方案】
规避措施:
1、使用gandalf用户登录CNA节点&#