在 mmrotate 项目中设置分布式训练

最新推荐文章于 2024-09-04 23:03:34 发布

sand&wich

最新推荐文章于 2024-09-04 23:03:34 发布

阅读量273

点赞数 3

文章标签：目标检测分布式

本文链接：https://blog.csdn.net/m0_67947599/article/details/140348331

版权

分布式训练的挑战

许多开发者尝试通过修改 train.py 文件中的 GPU 数量来启动分布式训练，但这种方法往往不能实现真正的分布式。问题在于，分布式训练涉及到多个进程或节点之间的通信和协调，仅仅增加GPU数量并不能自动完成这些设置。

分布式训练的设置

正确设置分布式训练涉及多个步骤，关键在于使用适当的工具和命令来启动多进程。PyTorch 提供了 torch.distributed.launch 工具来帮助用户简化这一过程。以下是一个典型的命令行示例，用于启动一个三卡的分布式训练：

CUDA_VISIBLE_DEVICES=0,1,2 python -m torch.distributed.launch --nnodes=1 --node_rank=0 --master_addr="127.0.0.1" --nproc_per_node=3 --master_port=25513 tools/train.py

命令行参数解释

CUDA_VISIBLE_DEVICES=0,1,2: 这个环境变量指定了哪些GPU将被用于训练。在这个例子中，我们使用了三个GPU。
--nnodes=1: 指定了总节点数，这里我们使用单节点。
--node_rank=0: 这个节点的编号是0，用于标识节点在多节点配置中的位置。
--master_addr="127.0.0.1": 这是主节点的IP地址，所有节点将用这个地址来通信。
--nproc_per_node=3: 指定每个节点上运行的进程数，这里设置为3，因为我们使用三个GPU。
--master_port=25513: 用于节点间通信的端口。

通过以上方法便可以实现分布式多卡的mmrotate项目的训练，希望对大家有帮助！

sand&wich

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫