目录
Ubuntu Linux 系统实时监控 GPU 显卡温度的方法
1、简介
发现服务器重启现象,于是开始观察是否是服务器上运行程序太多导致显卡温度过高,尤其达到临界值系统自动重启而非中断程序。。。
2、查看
查看显卡情况
nvidia-smi
查看每个显卡当前温度和极限温度邻近值(发现v100在90度重启,p100在85度重启)
nvidia-smi -q -d TEMPERATURE
实时监控显卡使用情况和温度
gpustat-i
查看目前正在运行的所有python命令
ps -ef | grep python