Ubuntu下深度学习/炼丹死机,13/14代 CPU与主板兼容性问题

先看配置:

CPU: i9 13900K

主板: 华硕 PRIME Z690-P

事情的起因:ubuntu下,炼丹的时候在起步周期的若干个周期内经常发生电脑直接卡死,键鼠输入无法应,显示服务器无反应。重启电脑之后翻看logs,无法找到任何相关的报错logs。windows下很少发生类似问题(只在玩老头环加载地图的时候自动重启了一次)。

一句话概括我的解决方案:升级BIOS

故障排除经历:

第一轮:

推测问题出现在显卡(4090)、nvidia driver、cuda、cudnn不兼容或是它们与pytorch框架不兼容的问题,尝试降低pytorch版本、更新nvidia driver版本(驱动向下兼容的可以往上更新)、卸载并安装其他版本的cuda与cudnn。

问题未得到解决。

第二轮:

参考了这篇博客:NVIDIA驱动 XORG频繁崩溃_xorg nvidia 太卡-CSDN博客

查看了显示服务器,为xorg,为什么是xorg呢?因为之前想要使用远程桌面连接,向日葵只支持xorg,所以更改为了xorg。然而,启用远程桌面链接,即使不进行炼丹也会发生死机现象。

所以推测问题出现在xorg与nvidia驱动不兼容,永久禁用了xorg并使用wayland,并写了个service,持续打开nvidia driver的persistent mode。

看上去像是解决了问题,终于能炼了,问题得到了缓解。

然而若干天之后又一次在炼丹中发生了系统卡死的问题。

第三轮:

认为问题出现在硬件上,耗费大量时间检查了ssd,hdd的状态,发现均为良好。

认为问题出现在炼丹的时候batch size开太大导致的问题,然而显存并未发生溢出,对其他硬件知识也有限,毕竟4090就是用来炼丹的,无法做出妥协。

问题未得到解决。

第四轮:

问题困扰了我很久,直到看到了这篇文章:关于 13/14 代 cpu 搭配 z790-p 主板深度学习代码死机的故障排查 - 哔哩哔哩

近日无意间了解到 intel 13,14 代由于奔放的大小核性能,刻意拉高频率,压低电压导致 cpu 不稳定现象频繁出现,各大主板商相继推出了“补救”bios 的新闻。

文中提到:https://baijiahao.baidu.com/s?id=1798535964378045147&wfr=spider&for=pc&searchword=intel%20default%2013/14%E4%BB%A

此前有报道称,英特尔开始调查第13和14代酷睿处理器的游戏稳定性问题,主要集中在英特尔酷睿i9-13900K/14900K等高端处理器上,而且在采用虚幻引擎的游戏上会表现得较为明显,一般会提示“显存不足”、运行不稳定或者随机崩溃等情况。目前华硕、技嘉、微星、华擎和映泰都针对该问题,公布了对应的解决方案。

推测问题出现在 13/14 代 cpu 与 主板之间的兼容性问题。

询问群友,罗列解决方案如下:

1. 更新BIOS,使用主板厂商的推荐设置(文章推荐,群友不推荐,原因是ac loadline太高,电压会去到1.5v以上,可能会降低cpu寿命)

2. 手动给电压,倍频锁55,防掉压选lv6,bios电压给到1.38v(群友方案)

选择方案1,原因:硬件知识有限,更新BIOS相对更简单,出问题了厂商全责,选择相信厂商

不怕麻烦的可以选方案2

解决方案:更新了BIOS

重新炼了一炉,完美,没发生任何炸炉现象。问题得到了解决。

  • 33
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值