【分布式训练】基于docker容器的pytorch多机分布式训练

本文介绍了如何在Ubuntu上安装最新版Docker,并通过Docker进行PyTorch的多机分布式训练。详细步骤包括卸载旧版Docker、安装依赖、配置用户组、启动Docker、更换Docker源以及拉取相关镜像。
摘要由CSDN通过智能技术生成

参考链接

Deep Learning:PyTorch 基于docker 容器的分布式训练实践
基于Docker的大规模人脸数据集分布式训练

Ubuntu安装docker

ubuntu下自带了docker的库,不需要添加新的源。
但是ubuntu自带的docker版本太低,需要先卸载旧的再安装新的。
1、卸载旧版本

apt-get remove docker docker-engine docker.io containerd runc

使用apt-get命令时,如果出现Could not get lock /var/lib/dpkg/lock-frontend,说明之前使用apt时出现异常,没有正常关闭,还在运行。
请添加图片描述
解决:使用ps 和 grep查找apt的pid,并使用kill杀死掉
参考Could not get lock /var/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值