服务器问题查询及解决记录

===============本文仅限自我问题解决记录===========

1.现象

        假期有过一次停电后,服务器重启后,8卡GPU在跑模型训练时基本上跑20-30mins不到就会卡死,服务器直接卡死,ping也ping不通,重启服务器后正常,但一跑训练就出现上述问题。期间怀疑是当时他们买的二手显卡又出问题,所以对不同单卡跑了之前可以跑通的模型想复现问题,结果还是20mins左右就卡死,因此排除是显卡问题。

2.解决

        期间查询了诸多相关现象的解决方法,包括但不限于重装Python环境(Pytorch这些)、重新安装驱动、更换CUDA版本等,都无法有效解决上述问题。一度想放弃(不想花太多时间浪费在不属于我的问题上=_=,毕竟一堆活等着我)

        突然有一天想到或许跟当天断电有关,因此复现了一次上述卡死的问题后,重启服务器并检查系统日志文件,【命令: sudo cat /var/log/syslog】,在日志中找到和NVIDIA相关的部分,发现频繁出现【nvidia-gpu i2c timeout error -110】、【i2c_transfer failed -110】等信息(如下图),因此根据这些信息寻找对应解决方案。

对应的解决办法是:创建一个禁用的配置文件,命令【sudo vim /etc/modprobe.d/blacklist_i2c-nvidia-gpu.conf】,在里面输入内容blacklist i2c_nvidia_gpu

然后执行命令【sudo update-initramfs -u 】,再重启服务器,problem solved !!!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值