torch.nn.DataParallel使用细节

还好我不在意

已于 2023-05-12 21:11:43 修改

阅读量804

点赞数 1

文章标签： python

于 2023-04-03 18:47:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46294481/article/details/129936477

版权

import torch
from torch import nn
#使用机器有两个GPU

a=torch.rand([5,4])
model=nn.Sequential(
      nn.Linear(4,2)
)

model=nn.DataParallel(model)
print(model.device_ids)
b=model(a)
print(b)

#报错，RuntimeError: module must have its parameters and buffers on device cuda:0 (device_ids[0]) but found one of them on device: cpu
#解决方案：model=nn.DataParallel(model).to(torch.device('cuda'))
#或者：
#model.to(torch.device('cuda'))
#model=nn.DataParallel(model)

#The parallelized module must have its parameters and buffers on device_ids[0] before running this DataParallel module.
#在运行此DataParallel模块之前，并行化模块的参数和缓冲区必须位于device_ids[0]上。
#也就是说model=nn.DataParallel(model).to(torch.device('cuda:1'))
#会报错RuntimeError: module must have its parameters and buffers on device cuda:0 (device_ids[0]) but found one of them on device: cuda:1

"""
解决报错后运行结果：
[0, 1]
tensor([[-0.7412, -0.2679],
        [-0.4051, -0.2946],
        [-0.5498, -0.2944],
        [-0.3615, -0.2638],
        [-0.2613, -0.2737]], device='cuda:0', grad_fn=<GatherBackward>)
"""

#注意：
#>>> net = torch.nn.DataParallel(model, device_ids=[0, 1, 2])
#>>> output = net(input_var)  # input_var can be on any device, including CPU

#torch.device('cuda')默认为torch.device('cuda:0')

当cuda：0显存不够时，可以使用例如：os.environ["CUDA_VISIBLE_DEVICES"] = "3,2,0,1"

这样的命令来把cuda：3修改为cuda：0。

还好我不在意

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
torch.nn.DataParallel使用细节

【代码】torch.nn.DataParallel使用细节。
复制链接

扫一扫

还好我不在意 CSDN认证博客专家 CSDN认证企业博客

码龄5年

12: 原创

54万+: 周排名

11万+: 总排名

1万+: 访问

: 等级

177: 积分

29: 粉丝

54: 获赞

8: 评论

65: 收藏

私信

关注

热门文章

最新评论

Gumbel-Softmax的logits输入可以是模型的输出
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/618801716。
Gumbel-Softmax的logits输入可以是模型的输出
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618734618。
docker使用
CSDN-Ada助手: 云原生入门技能树或许可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
torch.nn.parallel.DistributedDataParallel使用
baby_hua: 可能我的问题既有超参的调试也有采样器的问题，数据分层了，需要自定义采样器根据第一层做rank拆分，多谢解惑
torch.nn.parallel.DistributedDataParallel使用
还好我不在意: 准确来说是这样的，但是可以使用torch.utils.data.distributed.DistributedSampler来让pytoch自动分配训练集到每个进程上，需要注意的是，对于验证集和测试集，一般不采用数据集的自动分配，因为pytorch的一些内部操作会让验证集和测试集的评价指标略有改变（为了让所有进程上的样本数一致，会重复一些样本），关于数据集的部分分配细节，可以参考我这篇文章https://blog.csdn.net/m0_46294481/article/details/132100955?spm=1001.2014.3001.5501

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。