问题描述
最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错。
解决方案
在nvidia论坛有人给出了解决方案,即问题的根源可能是风扇转速不足使GPU过热导致的。
首先开启GPU的persistent mode,再设置风扇的功率,重启即可生效。其中250代表的是风扇的最大功率限制,可以将其设置为最大,这样过热的时候风扇就会自动加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250