docker 使用pytorch在gpu上训练模型

安装docker

sudo apt-get -y install docker.io

不是

sudo apt-get install docker

虽然后者也能安装成功但是无法启动。

下载docker image

在docker hub上寻找pytorch的image,然后下载

sudo docker pull pytorch/pytorch

建立启动容器进入docker虚拟空间

sudo docker run --name=golfbears -it -v /home:/home pytorch/pytorch:latest

不一定能运行起来

我第一次就失败了,在pytorch1.7.1下主要出现了下面的错误:

RuntimeError: CUDA error: no kernel image is available for execution on the device

升级到1.9又报如下错误,更多了:

RuntimeError: CUDA error: no kernel image is available for execution on the device
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

在网上查询到如何传入

 CUDA_LAUNCH_BLOCKING=1 python train.py ...

但依旧没办法跑起来,花了很多时间,这主要的原因是pytorch和cuda版本不匹配,所以第一步还是要查询cudnn的驱动版本,通过nvidia-smi来看一下CUDA Version: 11.1,然后在pytorch
网站寻找能匹配这个版本的安装包
在这里插入图片描述
根据配置把“run this command”里指令copy出来,在docker container里面再安装一遍,驱动匹配的问题就基本解决了,剩下的就是跑模型和调试代码了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值