2401_83051627-CSDN博客

原创使用docker搭建分布式pytorch+cuda训练模型（二）

假如训练集中有样本100个，分给两台机器，每台两块gpu，那么每个gpu上使用25个样本，通过实现自定义数据集，主机可以规划进程使用的数据集部分，例如进程1使用第0-24样本，进程2使用第25-49样本等。此处需要设置主机IP与监听端口，主机运行此程序后会自动打开端口，从服务器则会通过IP访问此端口，由于当前是容器互联，所以IP为局域网IP，如果部署在服务器上需要使用上一篇文章中的容器端口映射打开对公网的端口。pytorch提供了多机多卡分布式学习工具，即多台服务器，每台服务器有多张GPU。

2024-07-11 10:05:46 975

原创使用docker搭建分布式pytorch+cuda训练模型（一）

由于训练模型所需要的环境一致，因此使用docker创建镜像并在各个服务器中开启容器。随后运行pytorch模型进行分布式训练。过程如下主机使用centos镜像创建容器在容器中搭建环境，上传代码将容器打包成镜像将镜像发布到各个服务器各个服务器开启容器，执行分布式训练。

2024-07-10 14:58:51 1243

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 使用docker搭建分布式pytorch+cuda训练模型（二）

原创 使用docker搭建分布式pytorch+cuda训练模型（一）

空空如也

空空如也

原创使用docker搭建分布式pytorch+cuda训练模型（二）

原创使用docker搭建分布式pytorch+cuda训练模型（一）