8卡 H800 NF5468M7 在微调和满负荷情况下 pcie 会出现downgrade,从32GT/s 降到 5GT/s,相当于 pice 从 pcie5 降到 pcie1 微调和推理速度突然得非常慢,bois 有关于cpu 和 pcie 电源相关参数都调整了,没有用。目前怀疑是硬件问题,有谁遇到过吗?浪潮售后 已经处理了差不多一年 也没找到问题,但是 将 cpu 和 gpu 在其他品牌上机子上启动 没有问题。购买的几台机子都有问题,相当于没用。
lspci 的 日志:
LnkCap: Port #0, Speed 32GT/s, Width x16, ASPM L1, Exit Latency L1 <4us
ClockPM+ Surprise- LLActRep- BwNot- ASPMOptComp+
LnkCtl: ASPM Disabled; RCB 64 bytes, Disabled- CommClk-
ExtSynch- ClockPM- AutWidDis- BWInt- AutBWInt-
LnkSta: Speed 5GT/s (downgraded), Width x16 (ok)
NF5468M7 pcie5.0 downgrade 问题处理
于 2024-12-18 17:46:41 首次发布