1. nvidia-smi
显示所有GPU的当前信息状态
nvidia-smi
输出:
2. nvidia-smi dmon
设备监控命令,以滚动条形式显示GPU设备统计信息
nvidia-smi dmon
输出:
- pwr:电源消耗(Power Usage),显示 GPU 当前的功耗情况,单位通常是瓦特(W)。
- gtemp:GPU 温度(GPU Temperature),显示 GPU 芯片的温度,通常以摄氏度(℃)为单位。
- mtemp:内存温度(Memory Temperature),显示显存模块的温度,以摄氏度为单位。
- sm:流处理器利用率(SM Utilization),显示 GPU 流处理器的利用率,反映 GPU 的计算负载情况。
- mem:显存利用率(Memory Utilization),显示显存的利用率,反映了当前任务对显存的占用情况。
- enc:视频编码器利用率(Encoder Utilization),显示 GPU 的视频编码器的利用率。
- dec:视频解码器利用率(Decoder Utilization),显示 GPU 的视频解码器的利用率。
- mclk:内存时钟频率(Memory Clock),显示显存模块的工作频率。
- pclk:GPU 核心时钟频率(Graphics Clock),显示 GPU 核心的工作频率。
3. watch -n 0.5 nvidia-smi
实时监控显存占用情况:
watch -n 0.5 nvidia-smi
输出:
4. nvidia-smi -q
查询所有GPU的当前详细信息
nvidia-smi -q
输出:
==============NVSMI LOG==============
Timestamp : Wed Mar 6 14:28:58 2024
Driver Version : 525.147.05
CUDA Version : 12.0
Attached GPUs : 1
GPU 00000000:01:00.0
Product Name : NVIDIA GeForce RTX 3060
Product Brand : GeForce
Product Architecture : Ampere
Display Mode : Enabled
Display Active : Enabled
Persistence Mode : Disabled
MIG Mode
Current : N/A
Pending : N/A
Accounting Mode : Disabled
Accounting Mode Buffer Size : 4000
Driver Model
Current : N/A
Pending : N/A
Serial Number : N/A
GPU UUID : GPU-ceafd414-247a-959f-1399-7849b3a16e13
Minor Number : 0
VBIOS Version : 94.06.2F.40.11
MultiGPU Board : No
Board ID : 0x100
Board Part Number