nvidia-smi命令输出结果缓慢问题

52 篇文章 1 订阅

        nvidia-smi命令输出结果缓慢问题,可能的原因和解决办法:

1、当前已经打开了节能模式(需要关闭节能模式,切换到持久模式)。

如何关闭节能模式:

方法1:

sudo nvidia-persistenced --persistence-mode

方法2:

# 修改或创建配置文件
# persistence mode 能够让 GPU 更快响应任务,待机功耗增加。关闭 persistence mode 同样能够启动任务
$ sudo  vim /etc/rc.local

# 加入:

#!/bin/bash
sudo nvidia-smi -pm 1

# 使配置生效
$ source /etc/rc.local

Enabled persistence mode for GPU 00000000:02:00.0.
Enabled persistence mode for GPU 00000000:03:00.0.
Enabled persistence mode for GPU 00000000:82:00.0.
Enabled persistence mode for GPU 00000000:83:00.0.
All done.


2、显卡可能要坏了

故障的现象是:运行命令$ nvidia-smi之后要么不显示显卡的情况,要么显示很缓慢。并且结果中有ERR! 提示

定位:

1、查看显卡情况:$ nvidia-smi,可以看到有一张显卡出现了故障。
并且只要有这张显卡插在服务器上,这个命令的输出都会非常缓慢

        可以看到,循坏的显卡BUS-ID是02;如何找到这张显卡呢?
2、通过$ nvidia-smi -q 查看BUS-ID和显卡的序列号之间的对应关系

        可以看到,损坏的显卡(BUS-ID 02)的序列号(Serial Number)尾号为4953。那这张显卡插在哪个PCIE卡槽?

3、通过$ sudo dmidecode -t slot 查看BUS-ID (BUS Address)和卡槽的对应关系:

         可以看到BUS-ID 02对应的卡槽为SLOT-2,SLOT标号一般在主板上,白色字体,在每个PCIE插槽(很长的那个插槽,插显卡的)的上方。
        还可以通过 $ sudo dmidecode -t slot | egrep -i "slot|add" 查看 (输出更简洁),输出类似于:

 

4、去机房,找到这台服务器上SLOT-2卡槽插的序列号(显卡上一般会贴有白色的序列号标签)尾号为4953的那张卡!拔下来维修

注意事项:实际中,BUS-ID可能会发生动态变化。比如你服务器插着4张卡的时候,有个BUS-ID 02的卡坏了,你把它拔了,再运行$ nvidia-smi,发现还会有BUS-ID 02的显卡出现在结果中。所以定位故障显卡,主要靠BUS-ID对应的显卡序列号和卡槽。这些信息相对固定。
————————————————
参考:

https://blog.csdn.net/qxqxqzzz/article/details/116970546
https://blog.csdn.net/qxqxqzzz/article/details/119031178

nvidia-smiNVIDIA System Management Interface程序的命令行工具。它可以用于在Windows和Linux系统中查看和管理NVIDIA显卡的状态和信息。在Windows系统中,nvidia-smi.exe的位置通常是C:\Program Files\NVIDIACorporation\NVSMI\nvidia-smi.exe。在Linux系统中,nvidia-smi的位置通常是/usr/bin/nvidia-smi。由于这些位置已经加入了系统的PATH路径,所以可以直接在命令行中输入nvidia-smi来运行该命令。除了直接运行nvidia-smi命令之外,还可以使用不同的参数来查看NVIDIA显卡的其他状态。例如,使用-L参数可以列出本机上所有可用的NVIDIA GPU。其他常用的参数可以在nvidia-smi的手册(man nvidia-smi)中查找到。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [nvidia-smi 命令详解](https://blog.csdn.net/weixin_44966641/article/details/121228579)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [NVIDIA-SMI系列命令总结](https://blog.csdn.net/luhuaxiang/article/details/125219285)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值