【转载】Ubuntu18+Docker+Pytorch1.3+Cuda10.1+cudnn

最新推荐文章于 2024-07-25 18:13:24 发布

Leona_xz

最新推荐文章于 2024-07-25 18:13:24 发布

阅读量1k

点赞数 2

本文链接：https://blog.csdn.net/Leona_xz/article/details/107674875

版权

最近发现网速太慢，用anaconda配置环境根本搭建不起来，没办法只能另想出路，试试docker，发现简直是我的救星，分享一篇借鉴别人的Docker环境配置。

一、安装Docker

参考博客：https://www.codenong.com/cs106882074/

1.更新系统软件，并下载必要工具

sudo apt update
sudo apt install apt-transport-https ca-certificates curl software-properties-common

2.在/etc/apt/sources.list.d/docker.list文件中添加下面内容

$ sudo vim /etc/apt/sources.list.d/docker.list

deb [arch=amd64] https://download.docker.com/linux/ubuntu bionic stable

3.添加官方密钥

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -

显示OK,表示添加成功

4.再次更新软件

sudo apt update

5.安装docker-ce

sudo snap install docker
sudo apt install docker.io
docker --version
# Docker version 19.03.6, build 369ce74a3c

显示Docker版本信息表示成功安装了Docker

6.添加当前用户到Docker用户组

# 列出自己的用户组，确认自己在不在 docker 组中
groups
# 没有则新增docker组
sudo groupadd docker
# 把当前用户加入到docker组中
sudo gpasswd -a ${USER} docker
# 重启docker服务
sudo service docker restart

二.在Doecker中构建深度学习环境

参考博客：https://blog.csdn.net/ouening/article/details/105932177

需求：很多时候我们在GitHub找到的一些深度学习代码，由于环境依赖等原因无法跑通，比如基于tf编写的代码库，由于tf各版本API变得非常大（大坑），要想复现最简单的办法是配置和作者相同的tf环境，相应带来的麻烦是cuda版本和cudnn的重新配置，非常麻烦。

解决方案： 一个可行的解决方案是使用docker，pytorch和tensorflow官方都提供了不同版本的docker镜像，只需拉取相应镜像即可

1.安装nvidia-docker

# Add the package repositories
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

2.安装pytorch docker镜像

镜像的地址列表：https://hub.docker.com/r/pytorch/pytorch/tags?page=1

比如我拉取的是：pytorch/pytorch:1.3-cuda10.1-cudnn7-devel，则执行

sudo docker pull pytorch/pytorch:1.3-cuda10.1-cudnn7-devel

查看安装的镜像：

sudo docker images

如下图所示 pytorch/pytorch:1.3-cuda10.1-cudnn7-devel就是我们拉取的镜像

3.启动容器

sudo docker run --name pytorch1.3 --gpus all -it -v $PWD:/home pytorch/pytorch:1.3-cuda10.1-cudnn7-devel bash

run:代表启动一个容器，还有其他命令，例如rm（删除容器），exec,stop,kill等，可以查看链接：https://www.runoob.com/docker/docker-command-manual.html；
--name：代表容器名称，自行确定，如果没有指定，会随机生成；
--gpus：指定使用的gpu数量，这里为所有all，一定要设置该参数，否则无法调用gpu；
-it：使用交互式interactive；
-v：磁盘挂载，$PWD:/home的意思是将当前路径挂载到容器/home目录下，这样进入容器之后cd到/home，就可以运行当前路径下的文件了；
pytorch/pytorch:1.3-cuda10.1-cudnn7-devel：表示docker镜像
-bash：最后一项表示执行容器的命令，在交互模式下执行bash，就可以进入容器的bash了

4.停止容器

$ sudo docker stop pytorch1.3

5.查看容器

sudo docker ps

6.也可以使用下面的命令（使用容易的ID）停止容器

sudo docker stop 1c0d90101d6d

7.查看所有容器，包括已经停止的容器

sudo docker ps -a

8.删除容器

一定要慎重，不然在容器中安装的环境就没了，又得重新安装

sudo docker rm pytorch1.3
sudo docker rm 1c0d90101d6d

9.删除镜像

sudo docker image rm ${IMAGE ID}

可以删除镜像，如果提示有容器在占用，需要先删除容器，再删除镜像，这里的${IMAGE ID}就是镜像的ID

出现的问题

1. docker内，cuda上跑程序出错RuntimeError: DataLoader worker (pid 7199) is killed by signal: Bus error的解决

使用命令查看

df -h

解决办法：

1.是docker run的时候加参数--shm-size，但是得重起一个容器，如果部署了环境比较麻烦

2 第二种解决办法时修改容器的配置文件

使用 docker ps -a 命令找到要修改容器的 CONTAINER ID
运行 docker inspect 【CONTAINER ID】 | grep Id 命令 //我这里没有显示到需要的目录id
执行 cd /var/lib/docker/containers 命令进入找到与 Id 相同的目录，如下图
停止容器
停止docker引擎服务（一定要停止引擎服务

systemctl stop docker

or

service docker stop

修改对应容器目录下的hostconfig.json文件中的ShmSize（我是直接在后面加两个0，变为6G）
重启docker引擎服务

systemctl start docker

or

service docker start

重新进入docker

docker exec -it pytorch1.3 /bin/bash

出错：进入不了pytorch1.3镜像，最后用了

sudo docker start 1c0d90101d6d
docker exec -it pytorch1.3 /bin/bash

2. 安装opencv时出现错误：

参考博客：https://blog.csdn.net/keineahnung2345/article/details/84299532

ImportError: libgthread-2.0.so.0: cannot open shared object file: No such file or directory

ImportError: libSM.so.6: cannot open shared object file: No such file or directory

ImportError: libXrender.so.1: cannot open shared object file: No such file or directory

pip install opencv-python 

apt-get install -y libglib2.0-0 

apt-get install -y libsm6 libxext6 

apt-get install -y libxrender-dev

最后代码成功运行。

Leona_xz

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫