问题分析
在显卡上长时间运行很多的程序, 导致显卡过热, 出现问题.
解决方法
- 停掉 所有 在显卡上运行的程序, ERR会消失
- 设置显卡的persistence mode, 按照这个教程.
- 限制最大的运行功率不要太大
sudo nvidia-smi -pl 200 -i 2 # 指定卡2的最大功率为200
再次运行nvidia-smi显示卡2的运行功率已经调整好了
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01 Driver Version: 440.33.01 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M