pytorch rnn迁移到多个gpu上遇到的问题

今天在实验中需要把原本再单个gpu上运行的模型给迁移到多个gpu上的问题。于是使用了pytorch的data parallel。结果其他网络模型都没有问题,只有text encoder出了问题。
原因有两个部分:

  1. hidden是用text encoder的自定义方法赋值的,而且原来的hidden size为(a, batch size, b),但dataparallel分发任务默认将第一维当做batch size。于是对其进行了一番修改,具体参考这篇博文
  2. 然后是另一个我没搜到解决方法的问题。我这边输出是有一个wordembs,它的输出的第二维大小取决于当前数据最长的部分,于是当返回的时候dataparallel对它做merge,由于大小不一样报错了。(我尝试了传入这个batch里最大的长度,不过后来由于其他地方出错,我就把这块给删了。)

最后,我发现还是将rnn给不用dataparallel要好用,这样就不需要考虑各种各样的问题了。主要是我的rnn只是对文本编码,只是我模型的一小部分,所以解决起来还是可以的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值