torch 单机多卡运行

最新推荐文章于 2025-04-11 10:59:26 发布

liufei_hfut

最新推荐文章于 2025-04-11 10:59:26 发布

阅读量1.3k

点赞数

分类专栏：工具文章标签： pytorch 深度学习 python

本文链接：https://blog.csdn.net/hfut_lf/article/details/122156232

版权

本文详细介绍了如何在PyTorch中进行单机多GPU训练，包括环境设置、模型分配、损失函数迁移及数据加载。针对未有效使用多卡和CUDA非法内存访问错误，提供了排查建议，强调了debug时检查所有变量与模型是否均移到GPU的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

将torch模型使用单机多卡运行

步骤
常见问题
- 没有报错，但也没有使用多卡
- CUDA error: an illegal memory access was encountered

步骤

第一步：设置运行环境

os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2"
ids = [0, 1, 2]

if torch.cuda.is_available():
    dev

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

liufei_hfut

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

开源模型应用落地-Qwen2-7B-Instruct-Lora与vllm-单机多卡-RTX 4090双卡（十五）

没有卑微的工作，只有卑微的心态，与其抱怨，不如埋头实干

08-12

3万+

4090单机双卡部署vllm，并集成qwen2-7b-instruct和Lora权重

torch笔记二十一 | 单机多卡并行

滨哥v5的博客

06-21

1976

多GPU并行运算

1 条评论您还未登录，请先登录后发表或查看评论

Pytorch distributed 多卡并行载入模型

Orientliu96的博客

03-06

1248

Pytorch distributed 多卡并行载入模型前面的博客介绍了pytorch多卡distribute的方法，这次来介绍下如何载入模型。目前没有找到官方的distribute 载入模型的方式，所以采用如下方式。大部分情况下，我们在测试时不需要多卡并行计算。所以，我在测试时只使用单卡。 from collections import OrderedDict device = tor...

使用torch完成多卡训练

Edward__J的博客

05-09

2472

因为我这个gpu进程得到的是这个进程上数据的loss，比如我有四张卡，第一张卡上batch size有64个数据，会产生一个loss，但是四张卡按理来说是256的batch size，我们的做法应该是把四张卡的loss加起来除以四。我不太懂，希望有明白的佬提点一下。第一个是torch.utils.data.DistributedSampler，这函数的就是给不同的gpu分配不通的数据，简单来说就是把编号1，3，5，...的数据分给gpu0，2，4，8，...分给gpu2等等，这一步只是把索引给分好。

torchrun 实现多卡GPU训练，怎么使用

最新发布

ZJQ的博客

04-11

559

torchrun 实现多卡GPU训练，怎么使用 `torchrun` 是 PyTorch 提供的一个命令行工具，用于在多节点、多 GPU 环境下启动分布式训练任务。它是 `torch.distributed.launch` 的替代方案，提供了更简洁、更灵活的启动方式，能够自动处理进程组的初始化和管理。 ## torchrun --nproc_per_node=5 LoraQwenMulKa.py

【多卡运行】（未完待续）

闪闪发光的博客

04-22

715

在带有多GPU的机器上运行代码，只要在原始单GPU代码中模型定义完成后面，添加以下代码即可，这样会默认在所有的GPU上进行训练，特别注意：若banchsize=30，则在单GPU上是30个样本一组进行训练，在2个GPU上并行训练，则是每个GPU上15个样本，以此类推。所以可以考虑增加banchsize的值，即设置为30*GPU个数。

单机多卡运行

qq_40670510的博客

03-07

216

DDP的demo示例。

关于PyTorch单机多卡训练

weixin_38424903的博客

07-28

9202

我理解的分布式训练主要是通过两种方式实现： 1）数据并行 2）模型并行接下来，本文从3个方面来简单介绍一下分布式训练： 1）单个GPU 2）单机多卡 3）多机多卡（分布式训练）一、单机单卡 PyTorch集成了一套高效的GPU运算体系，可以加快数据运算，大概比CPU要快几十倍~ 先上代码： # 方法介绍 device = torch.device(param) # param可以是'cuda'或者'cpu'，该方法返回一个对象，表示数据将要放置的设备 device =..

torch 单机多卡训练

BodyCsoulN的博客

03-11

6521

最近在尝试用torch单机多卡进行训练。网上有很多方法，有的讲的也很详细，但是torch版本更新的还是很快的。所以自己也踩了很多坑。在这里记录下来，希望对大家有帮助。本文适用torch版本：1.10 torch单机多gpu训练有两种方式 torch.nn.DataParallel torch.nn.DataParallel( module, device_ids=None, output_device=None, dim=0) 这一种方式是比较老的，官方现在也不太推荐，相对来说，这种方式

使用DeepSpeed进行单机多卡训练

weixin_45056021的博客

10-24

2667

【代码】使用DeepSpeed进行单机多卡训练。

CUDA多卡运行设置

wyw0000的博客

09-14

1660

多GPU卡运行总结

Cuda实战-09 多线程多卡运行

星辰火之梦

03-21

823

样例的内容是每个CPU启用一个线程，执行一个核函数，然后这些线程平均分配给n个GPU上面运行，采用多线程技术实现。

pytorch配置双显卡，使用双显卡跑代码

m0_63092821的博客

06-12

7216

Linux系统，pytorch环境。

pytorch 多卡运行详细教程

机器学习深度学习业余选手

12-24

2429

pytorch 多卡运行详细教程

pytorch单卡，多卡模型加载的的问题module

m0_37192554的博客

10-18

6410

1、多卡训练保存的模型参数会出现 module 关键字 Unexpected key(s) in state_dict: “module.conv1.weight”, “module.bn1.weight”, “module.bn1.bias”, “module.bn1.running_mean”, “module.bn1.running_var”, “module.bn1.num_batche...

多GPU--简单运行，多卡模型加载保存

混吃等死，研究生在读，毕业无望，偶尔搞点好玩的

02-26

3021

学习记录

多卡运行时明明指定了哪几张卡(不包含0号卡)，但是结果还是包含0号卡

weixin_47414034的博客

09-04

1044

（2)如果import进来的其他文件中import了torch，那os.environ['CUDA_VISIBLE_DEVICES'] 必须在import这个文件之前。所以，最后，我们将os.environ['CUDA_VISIBLE_DEVICES']放在文件的最开始，最开头的位置，就可以完美解决问题。（1）os.environ['CUDA_VISIBLE_DEVICES'] 必须在import torch之前。但是最后发现还是从0号卡开始，占用的不是4，5，6，7，而是0，1，2，3四张卡。

torch训练（单卡，单机多卡，多机多卡）

JoeyChen1219的博客

04-19

1170

pytorch单卡训练，单机多卡DP训练，多机多卡DDP训练

解决多卡加载预训练模型0卡内存占用大的问题

weixin_31588979的博客

02-20

1211

在多卡加载与训练模型的时候，出现显卡内存不足的错误，batchsize放到很小以后观察发现第一张卡占用内存比其他几张大了很多。把预训练模型参数map到cpu上去。

单机多卡命令

03-22

### 单机多卡训练命令在单机环境下使用多个 GPU 进行程序运行时，无论是 PyTorch 还是 TensorFlow 都提供了相应的支持。以下是针对这两种框架的具体实现方式。 #### PyTorch 的单机多卡训练对于 PyTorch 来说，...