多机多卡训练记录DDP

最新推荐文章于 2024-07-08 16:21:27 发布

guolideyu

最新推荐文章于 2024-07-08 16:21:27 发布

阅读量227

点赞数 1

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_43332450/article/details/132187418

版权

记录一下自己训了个寂寞的多机多卡

之前一直用的

这个命令来训练，但是发现会出现 RuntimeError：Socket Timeout的错误，找遍全网不知道为啥，或者改为：

还是不对。

后来改成

或者

运行正确了，但是其实是每天机器各自执行了一遍单机四卡的，而不是二机四卡的，因为我在执行日志里看到了两个loss。

又一次翻遍全网，还是回到了第一个问题。问题详情：

后来在这里：Attribute errors with torch distributed - distributed - PyTorch Forums找到了这段话：

来到了这个网站：torchrun (Elastic Launch) — PyTorch 2.0 documentation

重新写了.sh文件：

终于成功了！！！！

具体为：

torchrun
    --nnodes=$NUM_NODES
    --nproc-per-node=$NUM_TRAINERS
    --max-restarts=3
    --rdzv-id=$JOB_ID
    --rdzv-backend=c10d
    --rdzv-endpoint=$HOST_NODE_ADDR
    YOUR_TRAINING_SCRIPT.py (--arg1 ... train script args...)

在网址里有具体说明。感谢天感谢地！终于成了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

guolideyu

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
多机多卡训练记录DDP

记录一下自己训了个寂寞的多机多卡
复制链接

扫一扫

分布式训练 - 多机多卡 (DDP)

love1005lin的博客

05-06

1万+

起初为调用大规模的模型训练，单卡GPU是不够使用的，需要借用服务器的多GPU使用。就会涉及到单机多卡，多机多卡的使用。在这里记录一下使用的方式和踩过的一些坑。文中若有不足，请多多指正。由于分布式的内容较多，笔者准备分几篇来讲一次下深度学习的分布式训练，深度学习的框架使用的是Pytorch框架。 ----1.分布式训练的理论基础 ----2.GPU训练 ----3.单机多卡的使用 ----4.多机多卡的使用在前边的文章中已经提到了怎样进行单机单卡和单机多卡进行分布式训练，那可能有小伙伴会有疑问能不能进行多

DDP(DistributedDataParallel) 分布式训练1——入门上手

哦豁灬

02-28

2035

DistributedDataParallel（DDP）是一个支持多机多卡、分布式训练的深度学习工程方法。

参与评论您还未登录，请先登录后发表或查看评论

多机多卡分布式训练(Distributed Data DataParallel, DDP)安装踩坑记录

xyl_507的博客

04-28

4224

最近在做目标跟踪的训练时，需要对backbone做一个在imagenet上的预训练模型。众所周知，140GB+的imagenet数据集上训练网络很是考验算力。刚开始在单机双卡(2080Ti)上试了一下，1个epoch需要6个小时，跑完100 epoch大约100*6/24=25天。瞬间放弃单机多卡，将目光放在了多机多卡训练，特撰文记录这段时间的工作，方便以后查询。一、准备工作因为之前配置单机的深度学习环境时，备份了许多安装包，所以后续大多数都是离线安装安装包目录： cuda_10.2.89

从单卡到多卡(DDP使用方式，附代码)(一)

qq_45270993的博客

11-01

746

分布式训练是一种常见的多卡加速训练的一种策略，一般来说有两种方式可选择：DataParallel(DP)和DistributedDataParallel(DDP)。下面演示如何把一个单卡运行的程序修改成可以单卡也可以多卡的形式。拿单机四卡举例，进程号分别是0,1,2,3。机器一上有0,1,2,3,4,5,6,7，机器二上也有0,1,2,3,4,5,6,7。对于两台八卡服务器的world size来说，就是0,1,2,…DDP包含单机多卡(常用)和多机多卡两种模式，这里只介绍单机多卡模式。

Transformers训练预处理datasets出现Socket Timeout

观自在的博客

03-21

456

库（低版本不支持如下方式），并添加参数 --ddp_timeout 3600。ddp的时候默认等待时间是1800s，如果超出这个时间程序就会退出。这里3600s只是demo，具体根据自身程序来设置。

PyTorch 多机多卡训练：DDP 实战与技巧

小白学视觉

08-09

5985

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达作者丨996黄金一代@知乎（已授权）来源丨https://zhuanlan.zhihu.com/p/250471767零. 概览想要让你的PyTorch神经网络在多卡环境上跑得又快又好？那你definitely需要这一篇！No one knows DDP better than I do!– – mag...

PyTorch训练（三）：DDP（DistributedDataParallel）【“单机多卡”、“多机多卡”分布式训练模式】【支持混合精度（fp16/fp32）】【只将数据并行，模型大于显卡则不行】

u013250861的博客

05-10

1353

一、概述我们知道 PyTorch 本身对于单机多卡提供了两种实现方式 DataParallel（DP）：Parameter Server模式，一张卡位reducer，实现也超级简单，一行代码。 DistributedDataParallel（DDP）：All-Reduce模式，本意是用来分布式训练，但是也可用于单机多卡。 DataParallel（DP）是基于Parameter server的算法，实现比较简单，只需在原单机单卡代码的基础上增加一行： gpu_ids = [0, 2, 3] mode.

2-20horovod多机多卡训练环境配置+训练流程1

08-08

在horovod下使用多机多卡需要满足以下3个先决条件：不同机器可以访问相同的文件：nfs不同机器使用相同的训练环境: Docker不同机器可以ssh交互：ss

基于pytorch的单机多卡分布式训练源码

09-06

在PyTorch中，单机多卡分布式训练是一种优化深度学习模型训练效率的方法，它能够充分利用多GPU资源，加速模型的收敛过程。本教程将详细解释如何使用PyTorch实现单机多卡分布式训练，主要参考提供的源码文件`pytorch_...

Resnet实战：单机多卡DDP方式、混合精度训练

04-15

本例提取了植物幼苗数据集中的部分数据做数据集，数据集共有12种类别，模型使用最经典的resnet50，演示如何实现混合精度训练以及如何使用DDP的方式实现多卡并行训练。通过本文你和学到： 1、如何使用混合精度训练...

「分布式训练」+ DDP单机多卡并行指南 PPT

04-10

DDP（Data Distributed Parallelism）是PyTorch中实现的一种分布式训练策略，特别适用于单机多GPU的场景。在这个"「分布式训练」+ DDP单机多卡并行指南"中，我们将深入探讨DDP的工作原理以及如何在实践中应用。 ...

「分布式训练」+ DDP单机多卡并行指南

07-20

掌握DDP的原理和实践，可以帮助你充分利用单机多GPU的计算能力，加快深度学习模型的训练速度。在实际应用中，应根据硬件环境和需求选择合适的通信协议，并优化启动方式，以实现最佳的训练性能。

transformers库中torch的train loop设计

yichudu

05-29

1718

工作较为琐碎. 我用 train loop 统一代指, 因为主流程在内, 是一个 loop.transformers 是一个流行的预训练模型库, 我想学习并复用它的 train loop 设计.

[sd_scripts]之config

liguandong

11-09

349

简介LoRA 是一种参数高效微调方法（PEFT），最早由 LoRA: Low-Rank Adaptation of Large Language Models 提出并应用于微调语言大模型之中，后来由 Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tu…在此示例中，将训练三个目录作为512x512（批量大小4）的dreambooth数据集，以及一个目录作为768x768（批量大小2）的微调数据集。所有方法均可使用的参数：[general]

torch DDP多卡训练教程记录

岁月如歌

11-10

732

简明教程看这里 -->--》详细解答了pipeline减少GPU占用看这里 -->--》解答了如何先加载到cpu解决0卡显存占用过多问题DDP模型加载和保存看这里 – >--》解释和解决ddp模型名被更改后如何保存加载的问题多机多卡更多看这里 -->--》有更细致的讲解。

科研第五步：如何使用DDP分布式多GPU并行跑pytorch深度学习训练

fs1341825137的博客

03-04

4914

DDP分布式多GPU并行跑pytorch深度学习模型多卡并行代码模板文章目录DDP分布式多GPU并行跑pytorch深度学习模型前言一、DDP怎么用二、使用步骤1.引入库2.读入数据总结前言 PyTorch的数据并行相对于TensorFlow而言，要简单的多，主要分成两个API： DataParallel（DP）：Parameter Server模式，一张卡为reducer，实现也超级简单，一行代码。 DistributedDataParallel（DDP）：All-Reduce模式，本意是用来分布式

pytorch 多机多卡DDP训练遇到ncclSystemError: System call (socket, malloc, munmap, etc) failed错误解决办法

我是一个菜鸟，虚心学习的菜鸟。

08-17

4240

export NCCL_SOCKET_IFNAME=enp4s0，此处enp4s0为每台机器的网卡名字，使用ifconfig查看，要是出现多个网卡名字，找到那个右IP地址、网关和掩码的那个名字，直接在终端输入以下命令，方便查看NCCL日志。

Transformers实战——文本相似度

厚积而薄发

11-27

1088

【代码】Transformers实战——文本相似度。

深度学习中的超参数及超参数搜索算法

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交