- nvidia-smi
常用命令:
nvidia-smi
- 显示所有GPU概览nvidia-smi -l 1
- 每1秒更新GPU状态nvidia-smi --query-gpu=temperature.gpu --format=csv
- 以csv格式输出GPU温度nvidia-smi --query-gpu=memory.used,memory.free --format=csv,noheader,nounits
- 查看GPU内存使用watch -n1 "nvidia-smi --query..."
- 实时监控GPU状态
示例输出:
Thu Apr 25 14:28:50 2024
242, 32268 # GPU 0 已用 242MB, 剩余 32268MB
+-------------------------------+----------------------+----------------------+
| GPU Name ... | GPU-Util Compute M. | MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2... Off | 0% Default | N/A |
| N/A 34C P0 43W / 300W | | |
+-------------------------------+----------------------+----------------------+
- gpustat
常用命令:
gpustat
- 显示GPU利用率概况gpustat -cpu
- 同时显示CPU利用率gpustat -f
- 显示GPU完整信息gpustat --watch
- 持续监视GPU状态变化
示例:
|====================================================|
| GPU Name ... || Used / Total | GPU-Util |
| TCC/WDDM ... || Memory | |
|===================================================|
| 0 Tesla V100-SXM2 || 243 / 32510 | 1% |
+=====================================================+
- nvitop
主要快捷键:
ctrl+s
- 切换单GPU/所有GPU显示ctrl+q
- 退出ctrl+f
- 按GPU利用率排序进程ctrl+n
- 按GPU内存使用排序ctrl+g
- 只显示占用GPU资源的进程
界面示例:
+===============================================================================+
| 0 Tesla V100-SXM2 | 3.88GiB / 32510MiB | 0% | Processes: 2 |
|-------------------------------------------------------------------------------|
| 4d8cef6 /usr/bin/python3 100Mi| 10% 0% G | N/A N/A 10 |
| 2c6b3d /usr/bin/python3 142Mi| 0% 6% G | N/A N/A 10 |
|===============================================================================|