使用 nvidia-smi
查看 GPU 温度
打开命令行终端(Windows 的 cmd 或 PowerShell,Linux 的终端),然后输入以下命令:
nvidia-smi
这将显示当前系统中所有 NVIDIA GPU 的状态信息,包括温度、使用率、功耗等。输出示例如下:
- Fan:风扇速度(百分比)。
- Temp:GPU 温度(摄氏度)。
- Perf:性能状态。
- Pwr/Cap:功耗及其上限。
- Memory-Usage:显存使用情况。
- GPU-Util:GPU 利用率。
- Compute M.:计算模式。
持续监控
如果你想持续监控 GPU 状态,可以使用以下命令:
每秒钟刷新一次 nvidia-smi
输出。
导出到文件
你也可以将输出导出到文件进行进一步分析:
nvidia-smi -l 1 > gpu_monitoring.txt
这会每秒钟将 nvidia-smi
的输出追加到 gpu_monitoring.txt
文件中。
使用 Python 脚本
你还可以使用 Python 脚本结合 nvidia-smi
进行监控和记录。以下是一个简单示例:
import os
import time
def log_gpu_stats(interval=1, duration=60, output_file='gpu_stats.log'):
start_time = time.time()
with open(output_file, 'w') as f:
while (time.time() - start_time) < duration:
os.system('nvidia-smi >> {}'.format(output_file))
time.sleep(interval)
log_gpu_stats(interval=5, duration=300) # 每 5 秒记录一次,持续 300 秒(5 分钟)
# 每 5 秒记录一次,持续 300 秒(5 分钟)
这个脚本每 5 秒记录一次 GPU 状态,持续 300 秒。