问题现象描述
硬件配置:2288H V5 + Atlas 300
问题现象:npu-smi工具查看部分芯片运行程序的温度高达90~100℃。
关键过程、根本原因分析
关键过程:
- 中断程序,等几分钟后查看芯片温度,所有芯片75℃左右,温度偏高。
- 打开服务器机盖,确认是否有导风罩。
图1 服务器导风罩
- 将Atlas 300卡从机框侧面转移到中间位置,增加标卡散热性。
图2 Atlas 300卡槽位
- 通过BMC界面更改风扇转速为高性能模式,提升服务器整体散热性。
图3 BMC界面调速模式
- 重新运行程序,所有310芯片的温度运行正常。
图4 npu-smi工具显示芯片温度
根本原因分析:
1、 服务器缺少导风罩,风扇转速不足以降低310芯片温度。
结论、解决方案及效果
结论:
运行程序,芯片温度恢复正常。
解决方案:
1、 服务器内部增加导风罩,调整风扇调速模式。
经验总结、预防措施和规范建议
建议服务器都配置导风罩,适当调整风扇转速模式,以保证服务器整体散热性。