最近公司多台AI服务器在训练过程中出现各自显卡报错,找不到原因,最后猜测是电源或功率太大造成的,用的是rtx3090,最后锁住功率,正常了! sudo nvidia-smi -lgc 800,1600 参考:解决[Unable to determine the device handle for GPU...: Unknown Error]问题_unable to determine the device handle for gpu0000:-CSDN博客