模型多GPU分布式训练---一些参数解释

最新推荐文章于 2025-03-12 17:24:21 发布

Vertira

最新推荐文章于 2025-03-12 17:24:21 发布

阅读量3.9k

点赞数 3

分类专栏： pytorch 文章标签：深度学习 python pytorch

本文链接：https://blog.csdn.net/Vertira/article/details/127348862

版权

pytorch 专栏收录该内容

92 篇文章

订阅专栏

DDP相关概念

rank：用于表示进程的编号/序号（在一些结构图中rank指的是软节点，rank可以看成一个计算单位），每一个进程对应了一个rank的进程，整个分布式由许多rank完成。
node：物理节点，可以是一台机器也可以是一个容器，节点内部可以有多个GPU。
rank与local_rank： rank是指在整个分布式任务中进程的序号；local_rank是指在一个node上进程的相对序号，local_rank在node之间相互独立。（注意：在代码中，会使用local_rank来指定GPU，并且local_rank和实际的gpu编号存在映射关系，比如，指定gpu 4,5进行训练，local_rank仍然是0,1，但前提是要先设置os.environ['CUDA_VISIBLE_DEVICES'] = "4,5"）。
nnodes、node_rank与nproc_per_node： nnodes是指物理节点数量，node_rank是物理节点的序号；nproc_per_node是指每个物理节点上面进程的数量。
word size ：全局（一个分布式任务）中，rank的数量。

每个node包含16个GPU，且nproc_per_node=8，nnodes=3，机器的node_rank=5，请问word_size是多少？   

答案：word_size = 3*8 = 24

完毕！！！待续.......

参考：

模型多GPU分布式训练---DDP - 知乎 (zhihu.com)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Vertira

关注关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

分布式训练-模型并行：张量模型并行【TP（Tensor Parallelism）】

u013250861的博客

08-26

977

¶张量模型并行需要解决两个问题：参数如何切分到不同设备（切分方式）；以及切分后，如何保证数学一致性（数学等价）。本文以 NLP 中的 Transformer 结构为例，介绍张量模型并行的切分方式和随机性控制。

分布式训练中的参数local_rank

浩瀚之水的专栏

02-22

524

定义local_rank是指在一台机器（一个node）上进程的相对序号。作用：在分布式训练中，通过local_rank可以区分同一台机器上的不同进程，从而实现对资源的合理分配和利用。

1 条评论您还未登录，请先登录后发表或查看评论

PyTroch笔记 - 多GPU分布式训练

AGI

08-22

1166

模型并行：模型较大，拆分为不同模块，放在不同的GPU上运行，在第1个GPU的输出结果，输入到第2个GPU运行，串行。不要把张量当入日志中输出，使用“.item()”转换为python的数据类型。数据并行：数据放在不同的GPU上跑，模型放在同一个GPU上，并行。代码：使用os.envisorn，例如。argparse，从命令行中接收参数，加载完模型数据，可以进行模型的拷贝，(v1.0版本，已经很少使用 )优点：多进程执行多卡训练，效率高。PyTorch分布式训练。(推荐)，简称DDP。判断CUDA是否可用。

分布式训练中的 rank 和 local_rank

最新发布

AI智能，无处不在

03-12

581

在分布式训练中，和是两个不同的概念，它们分别表示不同层次的进程标识符。理解这两者的区别和关系对于正确设置分布式训练环境至关重要。::关系：其中是每个节点上的设备数量（例如，在一个有4个GPU的节点上，就是4）。区别：假设你有一个由两台机器组成的集群，每台机器上有两个NPU：在这种情况下：解释 :获取 :设置设备:以下是一个完整的示例，展示了如何在分布式训练中使用和：

超详细逐步骤演示Pytorch深度学习多GPU并行训练全过程

qq_52868077的博客

10-02

6191

最近在复现深度学习方向的论文时，遇到了采用多GPU并行训练的情况。在自己动手操作的过程中，我发现网上的资料较为零散，于是在本篇博文中，我将整理我的最近所学，逐步骤详解多GPU并行训练全过程。

pytorch分布式训练小结

MSFollower的博客

08-24

7001

经过了几天的学习和总结，得到了一小点知识。破除理解上的障碍，希望和大家共同分享。当前的pytorch分布式训练，主要使用两种方法：DataParallel和DistributedDataParallel。本篇文章对这两种方法的使用流程和关键步骤进行介绍，不涉及很复杂的原理和内核，仅仅方便大家理解和使用。 DistributedDataParallel from torch.utils.data.distributed import DistributedSampler from torch.n..

local_rank，rank，node等理解

shenjianhua005的专栏

10-14

6919

node，rank，local_rank

yolo中RANK、LOACL_RANK以及WORLD_SIZE的介绍

yueguang8的博客

03-20

2928

通过 rank、local-rank 和 world_size 的配合使用，分布式训练系统可以有效地进行数据分发、参数同步和梯度聚合等操作，以实现高效的模型训练和加速。

关于Pytorch 分布式训练local_rank的坑

vivi_cin的博客

08-18

750

的时候会发现他们在 argsparse 中添加了这样一个参数“--loacl_rank”，比如下面是Swin-Transformer官方训练源码中cmd参数声明的一个部分，可以看到第70行添加了一个"“--local_rank”。大概意思就是说，声明“--use_env”后，pytorch会将当前进程在本机上的rank添加到环境变量“LOCAL_RANK”中，而不再添加到args.local_rank。现在命令行参数“--loacl_rank”的问题解决了，还以一个问题，就是还有很多大佬的代码在。

分布式训练 -GPU训练

love1005lin的博客

05-01

3797

起初为调用大规模的模型训练，单卡GPU是不够使用的，需要借用服务器的多GPU使用。就会涉及到单机多卡，多机多卡的使用。在这里记录一下使用的方式和踩过的一些坑。文中若有不足，请多多指正。由于分布式的内容较多，笔者准备分几篇来讲一次下深度学习的分布式训练，深度学习的框架使用的是Pytorch框架。 ----1.分布式训练的理论基础 ----2.GPU训练 ----3.单机多卡的使用 ----4.多机多卡的使用首先第一个问题：我们为什么要用GPU训练？ GPU 训练有哪些好处？不急不急，让我们带着问题慢慢来

大模型分布式训练框架-Microsoft DeepSpeed

12-03

在传统分布式训练中，由于需要在不同的计算节点间同步模型参数，常常会造成大量的内存浪费。ZeRO优化了参数的存储和更新方式，通过减少每个节点上保存的模型参数数量，极大地降低了内存占用，使训练超大型模型成为...

Keras深度学习框架第十五讲：使用PyTorch进行多GPU分布式训练

MUKAMO的博客

05-20

906

PyTorch支持单主机多GPU的同步训练，通过torch.nn.parallel.DistributedDataParallel模块，每个GPU上运行模型的一个副本。全局数据批次被分割并分配给各个GPU，每个GPU独立处理并计算梯度，最后同步更新所有模型副本的权重。这通过启动多个Python进程并使用分布式数据加载器实现。此方法充分利用了多GPU的并行计算能力，从而显著加速了深度学习模型的训练过程。

GPU集群上分布式训练大模型

jkjgj的博客

11-07

1488

总结一下如何在超算系统上进行预训练大模型的分布式训练 / 微调，文中代码已上传至。

unrecognized arguments: --local-rank=1报错解决

a_145133的博客

05-09

5412

这里我在train.py脚本文件中果然没有找到–local-rank参数，在很多的parser.add_argument后添加一行parser.add_argument(“–local-rank”, type=int)，注意在最后添加而不是刚开始，如果刚开始添加会导致传入参数不匹配而报错。含义：表明在运行 train.py 脚本时，传递了一个未被识别的参数 --local-rank=1。

Pytorch一机多卡分布式并行训练及混合精度训练

David's Tweet

07-12

5363

Pytorch并行主要有两种方式，DataParallel（DP）和DistributedDataParallel（DDP）。DP方式较为简单，但是多线程训练，并且主卡显存占用比其他卡会多很多。因此这里采用DDP方式来多卡计算。 DDP是多进程，将模型复制到多块卡上计算，数据分配较均衡。使用DDP的一机多卡配置 1. 加入local_rank参数，这一步会在代码运行时通过torch.distributed.launch输入，该参数意义是当前进程所用的是哪块卡： parser.add_a.

pytorch 多卡训练相关概念

哦豁灬

02-29

1100

如果GPU1和GPU2都分别得到两个特征层，那么两块GPU一共计算4个特征层的均值和方差，可以认为batch_size=4。注意：如果不用同步BN，而是每个设备计算自己的批次数据的均值方差，效果与单GPU一致，仅仅能提升训练速度；在混合精度训练上，Apex 的封装十分优雅。假设batch_size=2，每个GPU计算的均值和方差都针对这两个样本而言的。而BN的特性是：batch_size越大，均值和方差越接近与整个数据集的均值和方差，效果越好。Rank可以认为是这组能够互相通信的进程在World中的序号。

PyTorch多机多GPU并行训练方法及问题整理