问题分析
在显卡上长时间运行很多的程序, 导致显卡过热, 出现问题.
解决方法
- 停掉 所有 在显卡上运行的程序, ERR会消失
- 设置显卡的persistence mode, 按照这个教程.
- 限制最大的运行功率不要太大
sudo nvidia-smi -pl 200 -i 2 # 指定卡2的最大功率为200
再次运行nvidia-smi显示卡2的运行功率已经调整好了
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01 Driver Version: 440.33.01 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce RTX 208... On | 00000000:88:00.0 Off | N/A |
| 22% 36C P8 19W / 250W | 0MiB / 11019MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 1 GeForce RTX 208... On | 00000000:8B:00.0 Off | N/A |
| 22% 35C P8 18W / 250W | 0MiB / 11019MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 2 GeForce RTX 208... Off | 00000000:DB:00.0 Off | N/A |
| 22% 37C P8 20W / 200W | 0MiB / 11019MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 3 GeForce RTX 208... On | 00000000:DE:00.0 Off | N/A |
| 48% 57C P2 84W / 250W | 9469MiB / 11019MiB | 28% Default |
+-------------------------------+----------------------+----------------------+
注: 单独跑一个程序的时候, 200W的功率已经足够了, 可缓解产热过多的问题. 其他卡如果没有出现这种情况, 可以不用调整最大功率.
参考
# 重启显卡命令
sudo rmmod nvidia_uvm
sudo modprobe nvidia_uvm