最近训练大模型经常监控卡的使用情况。常用到:
watch nvidia-smi
面板提供有关显卡硬件和驱动程序的信息,以及进行一些基本的管理和监控操作。
以下是面板中一些主要信息的解释:
GPU | GPU的编号 | |
Name | GPU的型号 | |
Fan | 期望的风扇转速 | 以百分比形式显示,范围从0%到100%。实际的风扇转速可能会因风扇堵转或其他因素而低于这个值。 |
Temp | GPU的当前温度 | 单位通常是摄氏度。 |
Perf | GPU的性能状态 | 从P0到P12。P0表示最大性能状态,而P12表示最小性能状态。 |
Pwr | GPU的当前能耗 | 通常以瓦特为单位 |
Persistence-M | 持续模式 | 如果持续模式为“on”,则能耗会更大,但新的GPU应用启动时耗时会更短。如果为“off”,则表示持续模式已关闭。 |
Bus-Id | GPU的总线信息 | domain:bus:device.function(GPU 所在的 PCI 域:PCIe 总线编号:该总线上的设备编号:功能编号) |
Disp.A | GPU的显示是否已初始化(通常用于指示GPU是否正在驱动显示输出,例如连接到计算机的显示器。) | |
Memory Usage | 显存使用率 | 当前显存的使用量和总显存大小。 |
Volatile GPU-Util | GPU的实际利用率 | 通常以百分比表示。 |
Uncorr. ECC | 错误检查与纠正状态 | GPU是否启用了ECC功能,以及当前的ECC错误计数。(ECC通过在内存中增加额外的校验位来检测和纠正数据错误) |
Compute M | GPU的计算模式 | DEFAULT:默认的计算模式,允许多个进程同时使用 GPU,但是可能会受到一定的性能限制。 EXCLUSIVE_PROCESS:一次只有一个进程可以使用 GPU,可以确保每个进程都能获得最大的性能。 PROHIBITED:GPU 的计算功能禁用,用于防止某些不需要计算的任务占用 GPU 资源。 |