pytorch rnn迁移到多个gpu上遇到的问题

最新推荐文章于 2023-10-06 10:26:09 发布

芋圆526

最新推荐文章于 2023-10-06 10:26:09 发布

阅读量201

点赞数

分类专栏：论文复现

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26136211/article/details/115982227

版权

论文复现专栏收录该内容

5 篇文章 0 订阅

订阅专栏

今天在实验中需要把原本再单个gpu上运行的模型给迁移到多个gpu上的问题。于是使用了pytorch的data parallel。结果其他网络模型都没有问题，只有text encoder出了问题。
原因有两个部分：

hidden是用text encoder的自定义方法赋值的，而且原来的hidden size为（a, batch size, b），但dataparallel分发任务默认将第一维当做batch size。于是对其进行了一番修改，具体参考这篇博文
然后是另一个我没搜到解决方法的问题。我这边输出是有一个wordembs，它的输出的第二维大小取决于当前数据最长的部分，于是当返回的时候dataparallel对它做merge，由于大小不一样报错了。（我尝试了传入这个batch里最大的长度，不过后来由于其他地方出错，我就把这块给删了。）

最后，我发现还是将rnn给不用dataparallel要好用，这样就不需要考虑各种各样的问题了。主要是我的rnn只是对文本编码，只是我模型的一小部分，所以解决起来还是可以的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pytorch rnn迁移到多个gpu上遇到的问题

今天在实验中需要把原本再单个gpu上运行的模型给迁移到多个gpu上的问题。于是使用了pytorch的data parallel。结果其他网络模型都没有问题，只有text encoder出了问题。原因有两个部分：hidden是用text encoder的自定义方法赋值的，而且原来的hidden size为（a, batch size, b），但dataparallel分发任务默认将第一维当做batch size。于是对其进行了一番修改，具体参考这篇博文https://blog.csdn.net/yuuy
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。