3090/3080显卡服务器docker中使用torch的.cuda()语句卡住卡死问题解决方法

最新推荐文章于 2024-05-28 09:54:25 发布

_雨夜曼彻斯特

最新推荐文章于 2024-05-28 09:54:25 发布

阅读量4.8k

点赞数 6

分类专栏：错误提示以及解决文章标签： pytorch 深度学习经验分享 docker cuda

本文链接：https://blog.csdn.net/qq_33727302/article/details/114839729

版权

错误提示以及解决专栏收录该内容

9 篇文章 0 订阅

订阅专栏

30系列显卡docker+pytorch环境配置问题

问题描述：
项目组新进了一批3090显卡的服务器，尝试把之前部署在20系列显卡上的dorcker部署到新服务器上。之前的docker内部包含内容为：cuda10.1+pytorch1.3.0。直接将老镜像打包导入新服务器之后，python中运行如下语句：

>>import torch
>>a=torch.zeros(1)
>>a=a.cuda()

之后程序就一直卡死了，没有任何报错和警告。在尝试跑模型代码时也会存在各种错误。

问题解释：
新的30系列显卡比较新，pytorch很多问题官方并没有及时更新，导致很多新问题没有错误提示和警告，具体问题还是硬件版本和pytorch不匹配。

解决过程：
我们在3090宿主机上安装的是cuda11.1+cudnn8和配套的驱动（听说宿主机不用安装cuda也行，没有尝试），之后我们在如下四种环境中测试上面的代码：
（1）docker内部使用cuda10.1+pytorch1.3.0_cuda101；
（2）docker内部使用cuda10.1+pytorch1.7.1_cuda101；
（3）docker内部使用cuda11.1+pytorch1.7.1_cuda111；
（4）docker内部使用cuda10.1+pytorch1.7.1_cuda111（注意！最后一种pytorch和cuda版本并不一致）；
测试结果是：
（1）不可以用，直接卡死没有任何提示；
（2）可以使用；
（3）不可以使用，但是会有warning提示；
（4）可以使用★。

最后结论：
如果想在30系列显卡上使用cuda10.1的容器，需要将pytorch升级至1.7.1的cuda11.1版本。可能有人会问问什么要这么做，因为我们实验室有部分服务器只有局域网，不能在线配置环境，因此最大限度利用之前的环境在离线情况下是最省时高效的。

_雨夜曼彻斯特

关注

6
点赞
踩
15

收藏

觉得还不错? 一键收藏
8
评论
3090/3080显卡服务器docker中使用torch的.cuda()语句卡住卡死问题解决方法

30系列显卡docker+pytorch环境配置问题问题描述：项目组新进了一批3090显卡的服务器，尝试把之前部署在20系列显卡上的dorcker部署到新服务器上。之前的docker内部包含内容为：cuda10.1+pytorch1.3.0。直接将老镜像打包导入新服务器之后，python中运行如下语句：>>import torch>>a=torch.zeros(1)>>a=a.cuda()之后程序就一直卡死了，没有任何报错和警告。在尝试跑模型代码时也会存在各
复制链接

扫一扫