华为FusionCompute虚拟化平台升级操作文档



一、问题分析与解决思路

 

问题描述:在一段时间内,FC平台中的多台CNA主机偶发性自动重启,随即导致主机中部署的虚拟机自动重启,严重影响线上业务。

 

解决方案:经研究,基本上排除了是服务器硬件问题导致的可能性,怀疑是FC虚拟化平台的问题。于是,收集了自动重启主机中的日志,提供给华为工程师分析,得出以下结论。

 

【日志收集方法】

1)使用putty工具登录虚拟机所在的主机(以gandalf用户,通过管理IP地址登录,默认密码为Huawei@CLOUD8);

2)执行su命令,并按提示输入root用户的密码,切换至root用户;

3)执行TMOUT=0命令,防止PuTTY超时退出;

4(cp -r/var/log/CNA04/04/19    /home/GalaX8800/),注意CNA04为主机名,不同主机主机名不同,04为日期,此处以4日举例,19419:00,还请根据实际告警产生日期修改;

5(chown -Rgandalf:GalaX8800 /home/GalaX8800/19)

6)使用gandalf账户通过winscp登录主机,将目录/home/GalaX8800/19/拷贝出来并打包;

7)拷贝完成后,请删除19目录(rm -r/home/GalaX8800/19/

 

【日志分析结果】

Jun 4 20:00:02 CAN04 syslog-ng[5110]: Newconfiguration initialized;
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] xen_clocksource_read: 216918callbacks suppressed
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] clocksource/9: Time wentbackwards: ret=34873882edfc52 delta=-17243953 shadow=34873876d79440offset=c16ac2b
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] clocksource/9: Time wentbackwards: ret=34873882eeecea delta=-17239885 shadow=34873876d79440offset=c1759f6
Jun 4 20:00:02 CAN04 kernel: [14785708.976568] clocksource/3: Time wentbackwards: ret=34873883467f75 delta=-11500738 shadow=348738772ee0a9offset=c17a101

FusionCompute V100R006C00U1版本存在的问题一

 

【预警公告内容】

FusionSphere虚拟化平台TSC时钟回退造成CPU死锁问题预警

 

预警编号:EIT-P-B-201703

重要程度

重要

紧急程度

紧急

涉及产品

FusionSphere

涉及版本

FusionCompute V100R006C00

FusionCompute V100R006C00U1

涉及应用

范围

时钟偏差超过10MS,系统频繁打印时钟回退日志。

发布时间

2017-1-16

预防要求

按本资料指导进行规避或根本解决。

参考工时

0.5人天

 

【问题描述】

上述涉及版本中,多核CPU服务器使用TSC时钟源,会概率触发时钟偏差。当不同CPU间的时钟偏差超过10MS,内核就会频繁打印时钟回退的日志。内核调度实时任务的处理逻辑存在因打印时钟回退日志造成CPU死锁的问题。

 

【触发概率】

涉及版本

触发条件

FusionCompute V100R006C00

FusionCompute V100R006C00U1

时钟偏差超过10MS,系统频繁打印时钟回退日志。

 

影响风险】

频繁打印时钟回退日志,造成CPU出现低概率死锁,引起主机复位。

【问题判断】

使用gandalf用户登录CNA节点,切换到root用户,执行grep "Time went backwards" /var/log/messages命令,如果有回显,表示涉及此预警问题。如下截图表示没有回显,暂不涉及此预警。

wKioL1mz_8uhZMYVAAAKv02f_Xs024.png

【解决方案】

规避措施:

1、使用gandalf用户登录CNA节点&#