N卡出现 HW Power Brake Slowdown 的临时解决方案

新装了tesla显卡功耗总是上不去,250w的TDP,满载只能跑到70w。ubuntu看不到核心频率信息,只能通过 nvidia-smi -q -d PERFORMANCE来查看问题:

~$ nvidia-smi -q -d PERFORMANCE

==============NVSMI LOG==============

Timestamp                                 : Sun Oct 23 12:36:25 2022
Driver Version                            : 515.65.01
CUDA Version                              : 11.7

Attached GPUs                             : 1
GPU 00000000:84:00.0
    Performance State                     : P0
    Clocks Throttle Reasons
        Idle                              : Not Active
        Applications Clocks Setting       : Not Active
        SW Power Cap                      : Not Active
        HW Slowdown                       : Active
            HW Thermal Slowdown           : Not Active
            HW Power Brake Slowdown       : Active
        Sync Boost                        : Not Active
        SW Thermal Slowdown               : Not Active
        Display Clock Setting             : Not Active

 多方google后猜测问题出现在主板太老(我的是浪潮x79)不能识别tesla显卡的 power brake slowdown信号线导致的,我也没有找到可以升级的主板驱动,于是问题陷入了无法解决的境地。

后来在nvidia社区看到有人通过胶带封住pcie的第30针脚来解决的,我决定尝试一下。

RTX A5000 stuck at 400-500MHz due to HW Power Brake Slowdown on Ubuntu 20.04.3 - #2 by jvnugteren - Linux - NVIDIA Developer Forums

首先查询一下pcie针脚定义

PCI-E的针脚定义的简单讲解(备忘)_015646的博客-CSDN博客_pcie接口引脚定义

其中关键位置:

 在这里插入图片描述

可以看到第30针左侧有个reserved保留针脚,估计是tesla显卡 包括某些quatro显卡都对其进行了扩展,定义了Power Brake Slowdown信号,我们的主板又不知道这件事,所以一直对该口输出信号,导致供电跟不上。那么我们的任务就是封掉它。

需要注意第30针脚是从电源测第一针开始数的,不要跳过电源的11个针脚数。见下图

准备好绝缘胶带(不建议普通胶带),同时为了胶带能够不滑,我们需要将胶带剪成1.5mm宽,2cm长的细条,越过显卡金手指两面粘在第30针左右两侧(如图)。如果只粘一侧,插入pcie时会将胶带顶开。

  

重启查看显卡:

~$ nvidia-smi -q -d PERFORMANCE

==============NVSMI LOG==============

Timestamp                                 : Sun Oct 23 12:58:18 2022
Driver Version                            : 515.65.01
CUDA Version                              : 11.7

Attached GPUs                             : 1
GPU 00000000:84:00.0
    Performance State                     : P0
    Clocks Throttle Reasons
        Idle                              : Not Active
        Applications Clocks Setting       : Not Active
        SW Power Cap                      : Not Active
        HW Slowdown                       : Not Active
            HW Thermal Slowdown           : Not Active
            HW Power Brake Slowdown       : Not Active
        Sync Boost                        : Not Active
        SW Thermal Slowdown               : Not Active
        Display Clock Setting             : Not Active

 已经没有问题了,测试功耗也可以达到200+w。

注意事项:

1. 胶带如果粘歪了,可能会出现其他故障,所以请谨慎操作。特别是如果使用的不是绝缘胶带,可能导致短路。

2. 由于30针右侧也被封住了,pcie通道数可能会降低,在我的场景下测试暂时没有影响,但这个问题需要留意。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值