#帮助
nvidia-smi -h
#持续监控gpu状态 (-lms 可实现毫秒级监控)
nvidia-smi -l 3 #每三秒刷新一次状态,持续监控
#列出所有GPU,大写L
nvidia-smi -L
#查询所有信息
nvidia-smi -q
#查询特定卡的信息,0.1.2.为GPU编号
nvidia-smi -i 0
#显示特定的信息 MEMORY, UTILIZATION, ECC, TEMPERA-TURE, POWER, CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCKS, #PAGE_RETIREMENT, ACCOUNTING 配合-q使用
nvidia-smi -q -d MEMORY
#监控线程
nvidia-smi pmon
#监控设备
nvidia-smi dmon
cmd中输入nvidia-smi输出内容中的GPU状态如下:
红色框中的为列名,同一列中(如下图),相同颜色框相对应,如:GPU对应0,1(双卡),Name对应GeForce RTX 2080,Temp对应68C和81C。
GPU:显卡编号;
Fan:风扇转速(0%–100%),N/A表示没有风扇;
Name:显卡型号名称;
Temp:显卡温度,(GPU温度过高会导致GPU频率下降);
Perf:性能级别,从P0(最大性能)到P12(最小性能);
TCC/WDDM:NVIDIA 高性能 GPU(如Tesla, Quadro)可以配置为 TCC(Tesla Compute Cluster)模式或 WDDM(Windows Display Driver Model)模式。 二者区别在于,TCC 模式下,GPU完全用于计算,并不需要本地显示功能;而 WDDM 模式下,GPU 同时扮演计算卡 + 显卡的角色;
Pwr:Usage/Cap:当前功率/总功率;
Bus-Id:总线ID;
Disp.A:显式初始化,Display Active,表示GPU的显示是否初始化;
Memory-Usage:显存使用情况;
Volatile Uncorr. ECC:是否开启错误检查和纠正技术,N/A表示不开启;
GPU-Util:GPU使用用率(不是显卡内存的占用率);
Compute M:GPU的计算模式