NVIDIA-SMI命令

NVIDIA-SMI命令

flyish

持久模式(-pm)

持久模式允许用户将NVIDIA-SMI设置持久化,即使在系统重启后也能生效。这意味着可以在会话期间配置设备,而无需每次重新启动系统时都手动重新应用设置。

  • 语法

    nvidia-smi -pm <1/0>
      1:启用持久模式
      0:禁用持久模式
    
  • 示例

    • 启用持久模式:nvidia-smi -pm 1
    • 禁用持久模式:nvidia-smi -pm 0
错误纠正代码(ECC)(-e)

**ECC(错误纠正代码)**是一种用于检测和纠正设备内存错误的技术。启用ECC可以提高系统稳定性,防止因内存错误而导致的数据损坏。

  • 语法

    nvidia-smi -e <1/0>
      1:启用 ECC
      0:禁用 ECC
    
  • 示例

    • 启用ECC:nvidia-smi -e 1
    • 禁用ECC:nvidia-smi -e 0

watch -n 1 nvidia-smi 是一个非常有用的命令,用于实时监控 NVIDIA GPU 的状态。这个命令会每秒刷新一次 nvidia-smi 的输出,使你能够动态地查看 GPU 的使用情况和性能指标。

命令解析

  • watch: 这是一个标准的 Linux 命令,用于周期性地执行某个命令,并在终端中显示其输出。
  • -n 1: 这个选项告诉 watch 每隔 1 秒执行一次指定的命令。你可以将 1 改为任何其他数值来调整刷新间隔(例如 -n 5 表示每 5 秒刷新一次)。
  • nvidia-smi: 这是 NVIDIA 提供的系统管理接口工具,用于管理和监控 NVIDIA GPU 设备。

使用场景

watch -n 1 nvidia-smi 主要用于以下几种场景:

  1. 实时监控 GPU 使用情况:当你运行深度学习模型、科学计算或其他需要大量 GPU 资源的任务时,可以使用此命令实时查看 GPU 的利用率、显存使用情况等信息。
  2. 调试和优化:通过观察 GPU 的负载变化,可以帮助你找到性能瓶颈或优化的机会。
  3. 监控 GPU 温度和功耗:特别是在长时间运行高负载任务时,监控温度和功耗有助于确保硬件安全。

示例输出

当你运行 watch -n 1 nvidia-smi 时,终端会显示类似如下的输出,并且每秒更新一次:

+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 565.57.01              Driver Version: 565.57.01      CUDA Version: 12.7     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA RTX A6000               On  |   00000000:18:00.0  On |                 Off* |
| 36%   65C    P0             91W /  300W |   47256MiB /  49140MiB |      2%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+


自定义输出格式

如果你希望只显示特定的信息,可以通过 nvidia-smi 的查询模式(-q)结合 grep 来过滤输出。例如,仅显示 GPU 利用率和显存使用情况:

watch -n 1 nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv

这将生成如下简洁的输出,每秒更新一次。

解释:

  1. GPU: Graphics Processing Unit(图形处理单元),指的是显卡或图形处理器。

  2. Persistence-M: 持久模式(Persistence Mode)。这个模式确保即使没有活动的应用程序使用GPU,驱动程序也不会卸载GPU上下文,从而减少启动延迟并提高性能。

  3. Bus-Id: 总线ID(Bus Identifier),标识GPU在系统中的位置,通常由PCI总线编号、设备编号和功能编号组成。

  4. Disp.A: 显示激活(Display Active),表示显示器是否连接到该GPU并启用。

  5. Volatile Uncorr. ECC: 易失性不可纠正ECC错误(Volatile Uncorrectable ECC Errors),表示当前会话中发生的无法自动纠正的内存错误数量。

  6. Fan: 风扇转速百分比(Fan Speed Percentage),表示风扇当前的转速相对于其最大转速的百分比。

  7. Temp: 温度(Temperature),表示GPU当前的温度。

  8. Perf: 性能状态(Performance State),表示GPU当前的工作状态等级。P0通常代表最高性能级别,P12通常代表最低功耗状态。

  9. Pwr:Usage/Cap: 功率使用/容量(Power Usage/Capacity),表示当前功耗以及最大功率限制。

  10. Memory-Usage: 内存使用情况(Memory Usage),表示已使用的显存和总显存的数量。

  11. GPU-Util: GPU利用率(GPU Utilization),表示GPU在计算任务上的使用百分比。

  12. Compute M.: 计算模式(Compute Mode),表示GPU当前的计算模式。默认模式允许所有进程访问GPU,而其他模式可能会限制访问权限。

  13. MIG M.: Multi-Instance GPU模式(Multi-Instance GPU Mode),表示是否启用了MIG功能。MIG允许将一个物理GPU分割成多个逻辑实例,每个实例都可以独立运行不同的工作负载。

  • ECC: 错误纠正代码(Error-Correcting Code),是一种用于检测和纠正内存错误的技术,可以提高系统的稳定性。
  • N/A: 不适用(Not Applicable),表示该项不适用于当前配置或未启用。
nvidia-smiNVIDIA System Management Interface程序的命令行工具。它可以用于在Windows和Linux系统中查看和管理NVIDIA显卡的状态和信息。在Windows系统中,nvidia-smi.exe的位置通常是C:\Program Files\NVIDIACorporation\NVSMI\nvidia-smi.exe。在Linux系统中,nvidia-smi的位置通常是/usr/bin/nvidia-smi。由于这些位置已经加入了系统的PATH路径,所以可以直接在命令行中输入nvidia-smi来运行该命令。除了直接运行nvidia-smi命令之外,还可以使用不同的参数来查看NVIDIA显卡的其他状态。例如,使用-L参数可以列出本机上所有可用的NVIDIA GPU。其他常用的参数可以在nvidia-smi的手册(man nvidia-smi)中查找到。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [nvidia-smi 命令详解](https://blog.csdn.net/weixin_44966641/article/details/121228579)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [NVIDIA-SMI系列命令总结](https://blog.csdn.net/luhuaxiang/article/details/125219285)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二分掌柜的

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值