nvidia-smi是NVIDIA System Management Interface的简称,是 NVIDIA 提供的一种命令行工具。
通过运行 nvidia-smi 命令,你可以查看当前系统中所有可用的 GPU 的信息,包括 GPU 型号、温度、功耗、内存使用情况、驱动程序版本等,并且还可以查看 GPU 的使用率以及运行的进程信息。
除了查看 GPU 的状态和监控信息,nvidia-smi 还提供了一些管理功能,如设置 GPU 的功耗模式、设置 GPU 的性能模式、查询 GPU 支持的 CUDA 版本等。
在上面的示例中(这个示例里面有两个GPU):
- Driver Version:GPU驱动程序的版本号。
- CUDA Version:CUDA平台和工具包的版本号。
- GPU Name:GPU的名称。
- Persistence-M:表示 GPU 是否保持持续连接(Off 表示没有持续连接,On 表示有持续连接)。
- Bus-Id:GPU 的总线编号。
- Disp.A:GPU 显示的活动状态(Off 表示不活动,On 表示活动中)。
- Volatile Uncorr. ECC:表示 GPU 是否启用了错误纠正码(ECC)。
- Fan:GPU 风扇的转速,以百分比表示。
- Temp:GPU 的温度,以摄氏度表示。
- Perf:GPU 的性能模式。
- Pwr:Usage/Cap:GPU 的功耗使用情况,以瓦特(W)表示。
- Memory-Usage:GPU 内存的使用量,以 MiB 表示。
- GPU-Util:GPU 的利用率,以百分比表示。
- Compute M.:GPU 的计算模式。
- MIG M.:GPU 的多实例集群管理模式(如果适用)。
- Processes:GPU 上正在运行的进程列表。
- GPU:占用 GPU 的进程编号。
- GI:进程之间的间隔。
- CI:进程内的间隔。
- PID:进程的 ID 号。
- Type:进程的类型(C/G/GRC,C表示在CPU上运行,G表示在GPU上运行,GRC表示在GPU上执行的图形复用计算)。
- Process name:进程的名称。
- GPU Memory Usage:进程使用的 GPU 内存大小,以 MiB 表示。