【Atlas 800-3000/3010 01】Atlas 300卡温度过高问题排查流程

问题现象描述

硬件配置:2288H V5 + Atlas 300

问题现象:npu-smi工具查看部分芯片运行程序的温度高达90~100℃。

关键过程、根本原因分析

关键过程:

  1. 中断程序,等几分钟后查看芯片温度,所有芯片75℃左右,温度偏高。
  2. 打开服务器机盖,确认是否有导风罩。

图1 服务器导风罩

  1. 将Atlas 300卡从机框侧面转移到中间位置,增加标卡散热性。

图2 Atlas 300卡槽位

  1. 通过BMC界面更改风扇转速为高性能模式,提升服务器整体散热性。

图3 BMC界面调速模式

  1. 重新运行程序,所有310芯片的温度运行正常。

图4 npu-smi工具显示芯片温度

根本原因分析:

1、  服务器缺少导风罩,风扇转速不足以降低310芯片温度。

结论、解决方案及效果

结论:

运行程序,芯片温度恢复正常。

解决方案:

1、  服务器内部增加导风罩,调整风扇调速模式。

经验总结、预防措施和规范建议

建议服务器都配置导风罩,适当调整风扇转速模式,以保证服务器整体散热性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值