===============本文仅限自我问题解决记录===========
1.现象
假期有过一次停电后,服务器重启后,8卡GPU在跑模型训练时基本上跑20-30mins不到就会卡死,服务器直接卡死,ping也ping不通,重启服务器后正常,但一跑训练就出现上述问题。期间怀疑是当时他们买的二手显卡又出问题,所以对不同单卡跑了之前可以跑通的模型想复现问题,结果还是20mins左右就卡死,因此排除是显卡问题。
2.解决
期间查询了诸多相关现象的解决方法,包括但不限于重装Python环境(Pytorch这些)、重新安装驱动、更换CUDA版本等,都无法有效解决上述问题。一度想放弃(不想花太多时间浪费在不属于我的问题上=_=,毕竟一堆活等着我)
突然有一天想到或许跟当天断电有关,因此复现了一次上述卡死的问题后,重启服务器并检查系统日志文件,【命令: sudo cat /var/log/syslog】,在日志中找到和NVIDIA相关的部分,发现频繁出现【nvidia-gpu i2c timeout error -110】、【i2c_transfer failed -110】等信息(如下图),因此根据这些信息寻找对应解决方案。
对应的解决办法是:创建一个禁用的配置文件,命令【sudo vim /etc/modprobe.d/blacklist_i2c-nvidia-gpu.conf】,在里面输入内容blacklist i2c_nvidia_gpu
然后执行命令【
sudo update-initramfs -u 】,再重启服务器,problem solved !!!