分布式训练启动工具—Launch utility

torch.distributed.launch是一个启动工具,用于在单节点或多节点上启动分布式进程,尤其适用于深度学习的GPU训练。通过指定参数如nproc_per_node和master_port,用户可以在不同配置下高效地运行分布式训练。在多GPU环境中,每个进程应对应一个GPU以实现最佳性能。此外,介绍中提到了使用-m选项运行Python模块的知识。
摘要由CSDN通过智能技术生成

Launch utility

概述:

torch.distributed 提供了一个启动工具,即 torch.distributed.launch,用于在每个单节点上启动多个分布式进程。其同时支持 Python2 和 Python 3。

launch 可用于单节点的分布式训练,支持 CPU 和 GPU。对于 GPU 而言,若每个进程对应一个 GPU,则训练将取得最大性能。可通过指定参数(nproc_per_node),让 launch 在单节点上创建指定数目的进程(不可大于该节点对应的 GPU 数目)。

该工具以及多进程分布式训练,目前只有在 NCCL 上才能发挥最好的性能,NCCL 也是被推荐用于分布式 GPU 训练的。

参数:

training_script

位置参数,单 GPU 训练脚本的完整路径,该工具将并行启动该脚本。

–nnodes

指定用来分布式训练脚本的节点数。

–node_rank

多节点分布式训练时,指定当前节点的 rank。

–nproc_per_node

指定当前节点上,使用 GPU 训练的进程数。建议将该参数设置为当前节点的 GPU 数量,这样每个进程都能单独控制一个 GPU,效率最高。

–master_addr

master 节点(rank 为 0)的地址,应该为 ip 地址或者 nod

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值