多卡训练遇到的一个问题（维度错误）

最新推荐文章于 2024-04-28 17:22:43 发布

lzworld

最新推荐文章于 2024-04-28 17:22:43 发布

阅读量1k

点赞数

文章标签： pytorch 深度学习 python

本文链接：https://blog.csdn.net/lzworld/article/details/122809994

版权

多卡训练的时候，我个人常常用到的方法是

os.environ["CUDA_VISIBLE_DEVICES"] = '0,1,2,3'
device = torch.device('cuda:0' if torch.cuda.is_available() else "cpu")

model = nn.DataParallel(model)
model = model.to(device)

data = data.to(device)            
label = label.to(device)

output = model(data)

这种方法有一个问题，就是对model前向函数的输出的维度有要求，需要第0维对应的必须是batch。

原因是DataParallel的前向函数会将数据分成n等分（n对应GPU的数量），分别计算output之后再进行concat。操作的维度都是第0维。

所以模型在设计的时候，尽量保证前向函数的input的第0维和output的第0维都对应batch。

ps:ctcLoss对应的输入需要batch在第1维（叹气），所以要注意训练的设计。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lzworld

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
多卡训练遇到的一个问题（维度错误）

多卡训练的时候，我个人常常用到的方法是os.environ["CUDA_VISIBLE_DEVICES"] = '0,1,2,3'device = torch.device('cuda:0' if torch.cuda.is_available() else "cpu")model = nn.DataParallel(model)model = model.to(device)data = data.to(device) label = label.to(devic
复制链接

扫一扫