使用—nproc_per_node进行多卡训练时，指定gpu训练

Wsj010119

已于 2023-12-05 22:11:18 修改

阅读量6.9k

点赞数 16

文章标签：人工智能深度学习 python

于 2023-12-05 22:09:40 首次发布

本文链接：https://blog.csdn.net/Wsj010119/article/details/134818471

版权

文章介绍了如何在使用`--nproc_per_node`参数进行多GPU训练时，通过设置CUDA_VISIBLE_DEVICES环境变量排除特定GPU，确保指定数量的GPU参与计算过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在使用 --nproc_per_node 参数时，如果有四个 GPU，但不想使用 GPU 1，可以使用 CUDA_VISIBLE_DEVICES 环境变量来限制可见的 GPU。

CUDA_VISIBLE_DEVICES=0,2,3 python training.py --nproc_per_node=3

在这个例子中，CUDA_VISIBLE_DEVICES 设置了可见的 GPU，排除了 GPU 1。然后，--nproc_per_node=3 指定了每个节点（即每台机器）上使用的 GPU 数量。这样就可以指定gpu训练了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Wsj010119

关注关注

16
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

多卡分布式训练：torchrun --nproc_per_node=5

ZJQ的博客

04-10

162

进行数据并行训练，每个进程持有完整的模型副本，处理不同的数据子集，然后汇总梯度更新模型参数。在分布式训练中，Transformer 网络各层的分配主要有两种方式：数据并行和模型并行。包，核心目标是简化多进程分布式训练的启动和管理。是 PyTorch 提供的用于启动分布式训练作业的实用工具，它基于。是使用 PyTorch 分布式训练工具。以下是一个简单的数据并行训练示例，使用。来运行 Python 脚本。这个示例展示了如何使用。

单机多卡训练

wang2008start的专栏

04-28

1856

启动方式的修改单机单卡的启动 python run.py --model bert 单机多卡的启动，2是卡的个数 python -m torch.distributed.launch --nproc_per_node 2 run.py --model bert 卡的设置方式修改上面改成分布式启动后，会自动传 local_rank 参数给程序，我们需要解析收到的 local_rank参数并进行设置 parser.add_argument("--local_rank", type=in.

1 条评论您还未登录，请先登录后发表或查看评论

如何指定多块GPU卡进行训练-数据并行

ningyanggege的博客

07-09

900

多GPU卡训练

PyTorch多卡/多GPU/分布式DPP的基本概念(node&rank&local_rank&nnodes&node_rank&nproc_per_node&world_size)

hxxjxw的博客

08-11

2万+

node 物理节点，可以是一台机器也可以是一个容器，节点内部可以有多个GPU。 rank & local_rank 用于表示进程的编号/序号（在一些结构图中rank指的是软节点，rank可以看成一个计算单位），每一个进程对应了一个rank的进程，整个分布式由许多rank完成。 local_rank： rank是指在整个分布式任务中进程的序号；local_rank是指在一个node上进程的相对序号，local_rank在node之间相互独立。 nnodes 物理节点数量 node_ra.

Pytorch - 弹性训练原理

whaosoft143ai的博客

08-12

8906

Pytorch在1.9.0引入了torchrun，用其替代1.9.0以前版本的。torchrun在功能的基础上主要新增了两个功能：Failover: 当worker训练失败时，会自动重新启动所有worker继续进行训练；Elastic: 可以动态增加或或删除node节点，本文将通过一个例子说明Elastic Training应该如何使用；...

python -m torch.distributed.launch --nproc_per_node=8

weixin_45833431的博客

05-17

4460

多GPU启动指令:python -m torch.distributed.launch --nproc_per_node=8 --use_env train_multi_gpu_using_launch.py,指令,nproc_per_node参数为使用GPU数量。我们使用了use_env传入了这个参数，它就会在环境变量中存入一系列参数，包括RANK,WORLD_SIZE,LOCAL_RANK。

PyTroch笔记 - 多GPU分布式训练

AGI

08-22

1143

模型并行：模型较大，拆分为不同模块，放在不同的GPU上运行，在第1个GPU的输出结果，输入到第2个GPU运行，串行。不要把张量当入日志中输出，使用“.item()”转换为python的数据类型。数据并行：数据放在不同的GPU上跑，模型放在同一个GPU上，并行。代码：使用os.envisorn，例如。argparse，从命令行中接收参数，加载完模型数据，可以进行模型的拷贝，(v1.0版本，已经很少使用 )优点：多进程执行多卡训练，效率高。PyTorch分布式训练。(推荐)，简称DDP。判断CUDA是否可用。

指定GPU 进行深度学习训练和多卡并行训练

lei_qi的博客

10-10

1433

指定GPU 进行深度学习训练 # 方法1： torch.cuda.set_device(1) # 方法2： device = torch.device("cuda:1") # 方法3： # 推荐使用 os.environ["CUDA_VISIBLE_DEVICES"] = '1' 多GPU并行代码使用四卡进行并行训练多GPU并行 os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3" if torch.cuda.device_count()

pytorch load state dict_pytorch训练trick

weixin_39627751的博客

11-17

241

pytorch随机种子pytorch随机种子是随机初始化的，如果想复现一个比较好的结果，可以设置固定随机种子。其中cudnn打开可以提高计算效率，但是会影响每次复现结果。另外如果图像预处理的时候用了随机切割，随机翻转需要对python的随机数生成器进行固定。#增加运行效率 torch.backends.cudnn.benchmark = False # if benchmark=Tr...

Training Region-based Object Detectors with Online Hard Example Mining

weixin_36670529的博客

09-12

892

目录摘要 1、简介 3、R-CNN概述 3.1、训练 4、我们的方法 4.1、在线难样本挖掘 4.2、实现细节 5、对在线难样本挖掘进行分析 5.1、实验步骤 5.2、OHME和启发式抽样的比较 5.3、鲁棒梯度估计 5.4、什么时候可以使用所有的例子？ 5.5、更好的优化 5.6、计算损耗 6、PASCAL VOC和MS COCO的结果 6.1、VOC 2007...

pytorch指定用多张显卡训练_轻量化模型训练加速的再思考

weixin_30141959的博客

12-22

677

自上一次做完模型训练加速的实验后，陆续又有了一些新的改动，包括：Pytorch发布了1.6.0版，官方支持amp功能，不再需要外部apex库；DALI库也更新了多次，一些API的使用上有些区别；研究了一下DistributedDataParallel的使用。因此，重新梳理了训练框架，并将参考代码放到Github上。如果觉得对你有所启发，请给个star呀。参考代码在这儿。1. 训练速度的瓶颈及应对思...

pytorch 多GPU并行训练代码讲解

@bangbang的博客

10-16

1万+

pytorch 多GPU并行训练介绍，参考我之前的博客:pytorch中使用多GPU并行训练。本文主要针对代码部分进行讲解。1. 首先判断有没有可用的GPU，如果没有的话，这边会报错提醒，因为我们的脚本对针对多GPU训练的场景的。2. 初始化各进程环境。

解决pytorch多GPU训练保存的模型,在单GPU环境下加载出错问题

09-16

如果您希望在单GPU环境下也能够直接加载之前多GPU环境下训练的模型，可以在加载模型之前使用`nn.DataParallel`对模型进行包装。这样可以确保权重名称的一致性，从而避免加载错误。示例代码如下： ```python ...

PyTorch分布式训练简介

热门推荐

baidu_19518247的博客

04-28

2万+

PyTorch分布式训练分布式训练已经成为如今训练深度学习模型的一个必备工具，但pytorch默认使用单个GPU进行训练，如果想用使用多个GPU乃至多个含有多块GPU的节点进行分布式训练的时候，需要在代码当中进行修改，这里总结一下几种使用pytorch进行分布式训练的方式。环境本文使用的环境为： python =3.7 pytorch = 1.0 CUDA = 8.0 使用单个GPU p...

Pytorch 多卡训练原理与实现

qq_40676033的博客

09-07

3356

文章目录Pytorch 多卡训练一、多卡训练原理二、单机多卡训练三、多机多卡训练后端初始化初始化init_method初始化rank和world_size四、模型保存参考链接 Pytorch 多卡训练一、多卡训练原理多卡训练流程一般如下：指定主机节点主机节点划分数据，一个batch数据平均分到每个机器上模型从主机拷贝到各个机器每个机器进行前向传播每个机器计算loss损失主机收集所有loss结果，进行参数更新将更新后参数模型拷贝给各个机器二、单机多卡训练使用torch.nn.Da

【深度学习】Python使用指定gpu运行代码

TwcatL_tree

10-29

6652

注意，序号是从0开始排的，所以如果你只有一个gpu，那么就是CUDA_VISIBLE_DEVICES=0 python extract_masks.py。在大型机构分配的服务器集群中，需要使用GPU的程序默认都会在第一张卡上进行，如果第一张卡倍别人占用或者显存不够的情况下，程序就会报错说没有显存容量，所以能够合理地利用GPU资源能帮助你更快更好地跑出实验效果。说明：程序会根据卡的容量分配成两个程序，不一定在两张卡，有时候一张卡的容量够则会在该张卡上开启新的进程。

记一次docker内proc_open和node交互的过程和坑

王杨的专栏

06-07

583

大家都知道，php的proc_open功能很强大，能和外部程序交互。而我做的工作是一个结算中心。涉及各种虚拟货币的结算和发款。什么比特币btc 莱特币ltc 门罗xmr 等各种币他们之间有相同，也有各自不同的地方，发款之前都是用rpc交互，本没有什么问题。但是门罗系列的xmr xmc etn 等，rpc不好用，且币种问题，rpc太慢了，所以我采用了 cli 的交互。后来又有以太坊eth 的发款...

pytorch分布式训练方法总结

leo0308的博客

11-20

2886

0 概述在深度学习中，出于训练效率的考虑，甚至有时候模型太大导致单个GPU卡放不下的情况，这时候都需要用到分布式训练。从大的方面分类，并行训练可以分为数据并行，模型并行以及混合并行3种。其中数据并行应用最为广泛，也比较成熟。而模型并行目前还不够成熟，缺乏统一的方案。本文主要介绍数据并行的方式，并且主要关注pytorch训练框架。 pytorch的并行训练主要有3种方式: DP (DataParallel) DDP (Distributed DataParallel) Horovod

pytorch分布式训练

十年以上架构设计经验，专注于软件架构和人工智能领域，对机器视觉、NLP、音视频等领域都有涉猎

11-25

6728

rank与GPU之间没有必然的对应关系，一个rank可以包含多个GPU；一个GPU也可以为多个rank服务（多进程共享GPU），在torch的分布式训练中习惯默认一个rank对应着一个GPU，因此local_rank可以当作GPU号

yolo11多卡训练subprocess.CalledProcessError: Command '['C:\\Users\\admin\\.conda\\envs\\yolov11\\python.exe', '-m', 'torch.distributed.run', '--nproc_per_node', '2', '--master_port', '63155', 'C:\\Users\\admin\\AppData\\Roaming\\Ultralytics\\DDP\\_temp_4s9e3p

最新发布

04-02

### YOLOv11 多卡训练 `subprocess.CalledProcessError` 问题分析在多GPU分布式训练过程中，如果遇到 `subprocess.CalledProcessError` 错误，通常表明子进程执行失败。这种错误可能由多种原因引起，包括环境配置不当、脚本路径错误、CUDA设备分配冲突或其他运行时异常。 #### 可能的原因及解决方案 1. **Conda 环境未激活** 如果使用的 Python 解释器位于 Conda 虚拟环境中，则需要确保该虚拟环境已正确激活。如果没有激活环境，可能导致依赖库缺失或版本不匹配[^2]。 ```bash source /path/to/your_conda/bin/activate your_env_name ``` 2. **Python 路径错误** 子进程中调用的 Python 解释器路径应与当前环境一致。如果路径指定错误，可能会加载错误的解释器或缺少必要的依赖项[^1]。 3. **Distributed 数据并行模式参数设置** 使用 `torch.distributed.run` 进行多GPU训练时，需正确设置 `--nproc_per_node` 和 `--master_port` 参数。前者表示每台机器上可用的 GPU 数量，后者用于定义节点间通信端口。如果这些参数设置不合理，可能导致初始化失败[^3]。 - 检查 `--nproc_per_node` 是否等于实际可用 GPU 的数量。 - 验证 `--master_port` 是否被其他程序占用。可以尝试更换端口号来排除此可能性。 4. **临时文件路径问题** 训练脚本通过 `-m torch.distributed.run` 启动时，会动态生成一个临时文件供各进程加载。如果临时文件路径不可访问或者存在权限问题，也可能引发错误。 5. **硬件资源不足** 当系统内存或显存不足以支持所选批量大小 (`--batch`) 或模型复杂度时，也会抛出类似的错误。降低批处理规模或减少参与计算的 GPU 数量可能是有效的缓解措施。 6. **代码逻辑缺陷** 若上述条件均满足但仍出现问题，可考虑是否存在潜在的代码实现漏洞。此时建议按照官方文档指导逐步排查，并利用断点调试工具定位具体发生崩溃的位置[^4]。以下是调整后的命令模板： ```bash python -m torch.distributed.launch \ --nnodes=1 \ --node_rank=0 \ --nproc_per_node=<number_of_gpus> \ --master_addr="localhost" \ --master_port=<unused_port_number> \ train.py \ --batch <batch_size> \ --data coco.yaml \ --weights yolov5s.pt \ --device <gpu_ids> ``` 请替换 `<number_of_gpus>`、`<unused_port_number>` 和 `<batch_size>` 等占位符为适合您场景的具体数值。 --- ### 示例修正版启动指令假设我们拥有两块 GPU 并希望以批次大小为 32 开始 COCO 数据集上的预训练权重微调任务，则完整的 CLI 应如下所示： ```bash python -m torch.distributed.run \ --nproc_per_node=2 \ --master_port=29500 \ train.py \ --batch 32 \ --data coco.yaml \ --weights yolov5s.pt \ --device 0,1 ``` 注意这里指定了两个 GPU (即 `--nproc_per_node=2`) ，以及选择了本地主机作为主控地址加上任意未被占用的端口号比如 29500 来完成跨进程间的同步通讯操作。 ---