在不用reboot的情况下,直接使用sudo nvidia-smi -r -i 出问题的gpu_id,重置即可,
考虑到在多卡环境下有的是用的nvlink作为桥接,这种情况需要对使用nvlink的卡进行同时重置,比如8卡:sudo nvidia-smi -r -i 0,1,2,3,4,5,6,7
在不用reboot的情况下,直接使用sudo nvidia-smi -r -i 出问题的gpu_id,重置即可,
考虑到在多卡环境下有的是用的nvlink作为桥接,这种情况需要对使用nvlink的卡进行同时重置,比如8卡:sudo nvidia-smi -r -i 0,1,2,3,4,5,6,7