tensorflow linux多卡训练_Tensorflow-gpu docker的使用过程

近日要使用TensorFlow去训练和部署模型,简单安装后发现TensorFlow-gpu使用的cuda版本与我现在使用的Pytorch的cuda版本并不相同,所以使用docker版本的TensorFlow来解决这一问题。

安装docker-ubuntu16.04

docker有两种安装方式,一种是通过apt命令在线安装,一种是通过下载文件并dpkg命令下载。我在安装过程中,遇到了安装错误,在此也给出清除Linux中docker的过程。

清除docker

step 1

dpkg 

step 2

sudo apt-get purge -y docker-engine docker docker.io docker-ce
sudo apt-get autoremove -y --purge docker-engine docker docker.io docker-ce

step 3

sudo rm -rf /var/lib/docker /etc/docker
sudo rm /etc/apparmor.d/docker
sudo groupdel docker
sudo rm -rf /var/run/docker.sock

如果使用dpkg的方式安装 发现还未清除docker残留

sudo find / -name "*docker*"

rm 这些项

cd /var/lib/dpkg/
sudo gedit status

在status与status-old 文件里查找docker相关的项,删除相关内容。

安装docker

Get Docker Engine - Community for Ubuntu​docs.docker.com
0ff302f9a1a7bbb579a38f8c03e468e1.png

安装nvidia-docker

NVIDIA/nvidia-docker​github.com
f93cd0bab5b61a192f043baae7ec7288.png
# Add the package repositories
$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
$ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

$ sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
$ sudo systemctl restart docker

Install nvidia-docker2 and reload the Docker daemon configuration

$sudo apt-get install -y nvidia-docker2
$sudo pkill -SIGHUP dockerd

测试

docker run --runtime=nvidia -rm nvidia/cuda:9.0-base nvidia-smi

在dockerhub里下载TensorFlow镜像

Docker Hub​hub.docker.com

选择需要的Tensorflow版本

例如

sudo docker pull tensorflow/tensorflow:2.0.0rc0-gpu-py3

基于基础的TensorFlow Docker镜像进行修改,增加库等

新建dockerfile

dockerfile 的内容例如:

FROM tensorflow/tensorflow:2.0.0rc0-gpu-py3
RUN pip3 install keras==2.1.5
RUN pip3 install pillow

建立自己的docker image

docker build -t huche/tf_keras:tf2.0rc-keras2.1.5 .

开始使用TensorFlow docker

bash

sudo docker run -it --rm -v /home/yolov3/:/mnt --runtime=nvidia huche/tf_keras:tf2.0rc-keras2.1.5 bash

jupyter

sudo docker run -it -p 8888:8888 --rm -v /home/yolov3/:/mnt --runtime=nvidia huche/tf_keras:tf2.0rc-keras2.1.5
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值