为了获得更加稳健的深度学习训练模型,一些庞大的训练在个人电脑上无法实现,本文主要以在LiCO中实现tensorflow训练模型为例,为读者提供参考,若文档中存在错误,请读者提出宝贵的意见。
文章目录
-
一、在ubuntu中下载docker
二、利用docker下载镜像
三、构造自己的容器
四、修改容器名,生成镜像
五、发布自定义镜像
六、在LiCO中下载镜像
七、实现深度学习模型训练
提示:以下是本篇文章正文内容,下面案例可供参考
一、在ubuntu中下载docker :https://blog.csdn.net/qq_40663357/article/details/83307338
一、下载
1、 安装docker的apt源
apt-get install apt-transport-https ca-certificates curl software-properties-common
2 、添加docker官方的GPG
curl -s https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
3 、添加docker的源。如果没有docker.list则自己创建一个
cd /etc/apt/sources.list.d
vim docker.list
清空原文件,加入以下内容
deb https://get.docker.io/ubuntu docker main
二、安装
1、 安装docker
apt install docker.io
2、 查看docker的版本:
docker version
二、利用docker下载镜像
1.查看当前docker镜像
sudo docker images
显示所有存在的镜像
2.下载镜像
进入Docker Hub网页:https://hub.docker.com/
在搜索框中输出自己需要的基础镜像,例如:tensorflow
点击右下角Docker Pull Command中命令的复制,将其复制到ubuntu下的命令行中;也可以通过点击Tag在其中寻找自己想要的不同版本。
下载完成后查看当前存在的镜像信息
docker images
此时发现tensorflow/tensorflow:latest镜像就下载好了
三、构造自己的容器
1.进入tensorflow/tensorflow镜像
docker run -it tensorflow/tensorflow:latest /bin/bash
注:记住5e7ae5f8288d这个容器名称
2.在原始容器中添加自己的模块,例如:在容器中安装opencv-python
pip3 install opencv-python
此时5e7ae5f8288d容器中就加入了我们需要的模块
四、修改容器名,生成镜像
1.显示所有正在运行的容器
docker ps -a
可以发现 5e7ae5f8288d容器就是自定义模块的tensorflow/tensorflow容器
2.要将自定义的容器保存为镜像
docker commit 5e7ae5f8288d 1160966815/tensorflow1:latest
其中5e7ae5f8288d为容器名,1160966815/tensorflow1:latest为自定义的名称
注:自定义的名称要按照Docker Hub自己的账号名称对应,我的账号名称是1160966815,因此设置为1160966815/tensorflow1:latest(之后会讲到为什么这样操作)。
五、发布自定义镜像:https://www.cnblogs.com/fanqisoft/p/11315392.html
⒈在Docker Hub(Docker官方镜像仓库)注册自己的用户名。
⒉在Docker中使用docker login命令登录自己的用户名密码。
(首次登陆需要自己的用户名密码)
⒊使用docker push 镜像名称 上传本地镜像到镜像仓库
docker push 镜像名称
例如:
docker push 1160966815/tensorflow1
此时在Docker Hub中就能够找到自己发布的镜像了:
六、在LiCO中下载镜像
LiCO服务器登陆网址
登陆LiCO之后进入专家模式:
在专家模式命令行中下载之前发布的tensorflow镜像:
singularity build tensorflow.sif docker://1160966815/tensorflow1
(其中tensorflow.sif为自命名文件)
此时镜像已下载好,可以在文件管理中查看
tensorflow.sif文件即为刚下载的镜像文件
七、实现深度学习模型训练
1.上传训练文件
进入文件管理,点击右键,Upload files进行本地文件上传。
2.开始训练
进入提交作业,选择General-Common Job——点击使用——自定义作业名称——选择自己的工作目录——填写运行脚本
运行脚本:(第一个路径为镜像所在的路径,第二个路径为自己的运行代码所在的路径,python代表的意思是:运行的文件为py文件)
根据自己的需求选择资源选项,点击提交,即可开始训练。
参考链接
在ubuntu中下载docker :https://blog.csdn.net/qq_40663357/article/details/83307338
进入Docker Hub网页:https://hub.docker.com/
发布自定义镜像:https://www.cnblogs.com/fanqisoft/p/11315392.html