nvidia-smi命令详解

本文详细介绍了如何使用nvidia-smi命令来监控联想拯救者Y7000笔记本的显卡状态,包括GPU编号、风扇转速、温度、性能、功耗、内存使用情况等,并提到了nvidia-smi的常见选项和可能的版本依赖。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. nvidia-smi 面板解析

由于我的笔记本电脑是2020版联想拯救者y7000,因此是自带独立显卡的,经过师姐的提醒,我打算用笔记本自带的显卡跑实验。
以下是利用nvida-smi命令输出关于显卡的内容:
在这里插入图片描述
GPU:本机中的GPU编号,从0开始,上图为0号一块GPU
Fan:风扇转速(0%-100%),N/A表示没有风扇
Name:GPU名字/类型
Temp:GPU温度(GPU温度过高会导致GPU频率下降)
Perf:性能状态,从P0(最大性能)到P12(最小性能),上图均为P2
Pwr:Usager/Cap:GPU功耗,Usage表示用了多少,Cap表示总共多少
Persistence-M:持续模式状态,持续模式耗能大,但在新的GPU应用启动时花费时间更少,上图均为On
Bus-Id:GPU总线
Disp.A:Display Active,表示GPU是否初始化
Memory-Usage:显存使用率
Volatile GPU-UTil:GPU使用率,与显存使用率的区别可参考显存与GPU
Uncorr. ECC:是否开启错误检查和纠错技术,0/DISABLED,1/ENABLED,上图均为N/A
Compute M:计算模式,0/DEFAULT,1/EXCLUSIVE_PROCESS,2/PROHIBITED,上图均为Default
Processes:显示每个进程占用的显存使用率、进程号、占用的哪个GPU

2. nvidia-smi 常用选项

注意⚠️:命令的可用选项和输出可能会因 NVIDIA 驱动程序版本和 GPU 型号而有所不同,可以通过 nvidia-smi --help 命令查看完整的选项列表和用法说明。

参考:

https://www.cnblogs.com/freedom-w/articles/17867561.html

### nvidia-smi 使用指南与常见问题 #### 什么是 `nvidia-smi`? `nvidia-smi` 是 NVIDIA 提供的一个用于管理和监控 GPU 设备的命令行工具。它可以提供关于 GPU 利用率、温度、功耗以及内存使用情况的信息[^1]。 --- #### 如何查看当前系统的 GPU 状态? 通过运行以下命令可以获取详细的 GPU 状态信息: ```bash nvidia-smi ``` 该命令会显示如下内容: - **GPU 名称和型号** - **驱动程序版本** - **CUDA 版本** - **显存占用情况** - **当前运行的任务及其进程 ID** 如果需要更简洁的输出,可以通过参数控制,例如仅显示显存使用情况: ```bash nvidia-smi --query-gpu=memory.total,memory.used --format=csv ``` --- #### 常见问题及解决办法 ##### 1. `nvidia-smi` 报错:“Failed to initialize NVML” 当出现此类错误时,通常是因为 NVIDIA 驱动未正确安装或版本过低。确保已安装最新版驱动并与操作系统兼容[^1]。 推荐检查驱动版本的方法: ```bash modinfo nvidia | grep version ``` 若确认驱动正常但仍报错,则尝试重新启动系统以加载模块。 ##### 2. 显卡利用率始终为零 (`%gpu-util`) 某些情况下,即使有任务在运行,`nvidia-smi` 可能不会报告实际的 GPU 占用率。这是由于默认采样间隔较短所致。可通过增加采样时间来观察变化: ```bash watch -n 0.5 nvidia-smi ``` ##### 3. Docker 中无法识别 GPU 为了在容器内访问主机上的 GPU 资源,需指定相应的运行时选项。以下是标准配置方式: ```bash sudo docker run --gpus all --rm nvcr.io/nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smi ``` 此操作允许容器内部调用宿主机的 `nvidia-smi` 工具并返回实时数据[^2]。 ##### 4. Prometheus 数据采集支持 对于希望集成到监控系统的用户来说,“NVIDIA GPU Exporter”是一个理想的选择。它能够基于 `nvidia-smi` 输出生成标准化指标,并将其传递给 Prometheus 实现可视化管理[^3]。 --- #### 安装 CUDA 和驱动后的验证步骤 完成 NVIDIA 驱动与 CUDA Toolkit 的部署之后,务必检验其功能是否完好无损。具体做法包括但不限于测试编译器版本号: ```bash nvcc --version ``` 同时也可以借助简单的 C++ 测试脚本来进一步确认硬件加速能力是否可用[^4]: ```cpp #include <cuda_runtime.h> int main() { int deviceCount; cudaGetDeviceCount(&deviceCount); printf("Number of devices: %d\n", deviceCount); return 0; } ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值