nvidia-smi输出内容释义及使用

nvidia-smi(NVIDIA System Management Interface) 是基于nvml的gpu的系统管理接口,主要用于显卡的管理和状态监控。

1.基础命令nvidia-smi

安装完成后在命令行或终端输入命令nvidia-smi,即可看到下面的信息(点击放大):
nvidia-smi输出图
包含了显卡的信号、温度、风扇、功率、显存、使用率、计算模式等信息。

部分指标说明如下1

Fan: 风扇转速(0%–100%),N/A表示没有风扇

Temp: GPU温度(GPU温度过高会导致GPU频率下降)

Perf: 性能状态,从P0(最大性能)到P12(最小性能)

Pwr: GPU功耗

Persistence-M: 持续模式的状态(持续模式耗能大,但在新的GPU应用启动时花费时间更少)

Bus-Id: GPU总线,domain🚌device.function

Disp.A: Display Active,表示GPU的显示是否初始化

Memory-Usage:显存使用率

Volatile GPU-Util:GPU使用率

ECC: 是否开启错误检查和纠正技术,0/DISABLED, 1/ENABLED

Compute M.: 计算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED

2.实用命令

#帮助
nvidia-smi -h

#持续监控gpu状态 (-lms 可实现毫秒级监控)
nvidia-smi -l 3   #每三秒刷新一次状态,持续监控

#列出所有GPU,大写L
nvidia-smi -L

#查询所有信息
nvidia-smi -q

#查询特定卡的信息,0.1.2.为GPU编号
nvidia-smi -i 0

#显示特定的信息  MEMORY, UTILIZATION, ECC, TEMPERA-TURE, POWER, CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS, #PAGE_RETIREMENT, ACCOUNTING 配合-q使用
nvidia-smi -q -d MEMORY

#监控线程
nvidia-smi pmon

#监控设备
nvidia-smi dmon

#此外还有一系列可以配置模式的属性,可以直接利用nvidia-smi配置
#详情:http://developer.download.nvidia.com/compute/DCGM/docs/nvidia-smi-367.38.pdf
#查询命令外的配置命令,请慎重使用!!!
#对于配置类命令,务必事先确认命令的含义!!!

ref:
命令参考:http://developer.download.nvidia.com/compute/DCGM/docs/nvidia-smi-367.38.pdf
https://blog.csdn.net/u011394059/article/details/74530243?locationNum=10&fps=1
https://blog.csdn.net/huangfei711/article/details/79230446

版权声明:本文为CSDN博主「hitrjj」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/u014636245/article/details/83933834


  1. 木十的博客 ↩︎

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: nvidia-smiNVIDIA公司提供的一款命令行工具,用于显示当前系统中NVIDIA GPU的状态和信息。通过运行该命令可以获取到GPU的一些重要参数和运行状态。 nvidia-smi输出解析主要包括以下几个方面: 1. 显卡型号和驱动版本:nvidia-smi输出的第一行会显示当前系统中所安装的显卡型号和驱动版本,可以通过这个信息了解显卡的具体型号和驱动的版本号。 2. GPU利用率:nvidia-smi输出的第二个部分会显示当前各个GPU的利用率情况,包括GPU的百分比利用率和内存利用率。这个信息可以帮助用户了解当前GPU的负载情况,以及是否存在资源瓶颈。 3. 进程信息:nvidia-smi输出的下部分会显示当前正在运行在GPU上的进程信息,包括进程的ID、名称、进程的占用GPU的显存大小、进程所使用的GPU的百分比,以及进程的状态等。这个信息可以帮助用户了解当前各个进程对GPU的占用情况,以及进程的运行状态。 4. 温度和风扇转速:nvidia-smi还会输出显卡的温度和风扇的转速信息。通过这个信息可以了解显卡的温度以及风扇的运行情况,以便及时采取散热措施。 综上所述,nvidia-smi作为一款实用的命令行工具,能够提供有关GPU的详细参数和状态信息,帮助用户监控和管理显卡的使用情况,以及及时发现和解决潜在的问题。 ### 回答2: nvidia-smiNVIDIA 硬件监控工具的命令行实用程序。它用于显示当前系统中 NVIDIA GPU 的详细信息和性能统计数据。 使用 nvidia-smi 命令后,会显示以下信息: 1. Driver Version(驱动程序版本):显示当前系统中安装的 NVIDIA 驱动程序的版本号。 2. GPU Utilization(GPU 利用率):显示当前每个 GPU 的利用率百分比。这个百分比表示 GPU 正在执行计算任务的时间与总时间的比例。 3. Memory Utilization(内存利用率):显示当前每个 GPU 的显存利用率百分比。这个百分比表示显存正在被用于存储数据的比例。 4. Temperature(温度):显示当前每个 GPU 的温度,以摄氏度为单位。这个信息有助于检测 GPU 是否过热。 5. Power Draw(功耗):显示当前每个 GPU 的功耗,以瓦特为单位。这个信息有助于评估 GPU 的能效和电力消耗。 6. 以及其他有关 GPU 的信息,如 GPU 编号、GPU 名称、GPU 序列号等。 nvidia-smi 还可以用于监控 GPU 使用情况、调试和管理显卡。 总结来说,nvidia-smi 提供了对 NVIDIA GPU 的详细实时监控信息,帮助用户了解 GPU 的性能、利用率、温度和功耗等参数,从而更好地优化和管理系统中的图形处理。 ### 回答3: nvidia-smi是英伟达的一个命令行工具,用于在Linux系统中显示和管理NVIDIA GPU的状态。其输出解析提供了有关GPU及其相关信息的详细统计数据。 nvidia-smi输出的主要部分包括: 1. 时间戳:显示命令执行时的日期和时间,以帮助用户了解统计数据的时效性。 2. GPU信息:包括GPU的索引号、名称、序列号和驱动版本等详细信息,可以帮助用户确定所使用的GPU。 3. GPU利用率:显示GPU的使用情况,包括GPU的总体利用率和各个进程在GPU上的利用率。用户可以通过此信息了解GPU资源的分配和使用情况。 4. GPU内存使用情况:显示GPU上内存的使用情况,包括已使用、可用和总共的内存量,以及GPU内存使用情况的百分比。这对于用户来说非常有用,特别是在设计、训练和评估深度学习模型时,需要了解GPU内存是否足够。 5. GPU温度和功耗:提供GPU的当前温度和功耗信息,以帮助用户监控GPU的工作状态和稳定性。 6. 进程信息:显示正在使用GPU的进程的相关信息,包括进程ID、进程名称、GPU内存使用量和GPU利用率等。这对于用户来说非常重要,可以帮助他们找出占用GPU资源较多的进程,进行资源优化和调整。 通过解析nvidia-smi输出,用户可以了解GPU的工作状态,包括利用率、内存使用、温度和功耗等重要信息,从而更好地管理和优化GPU的使用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值