查看torch依赖的cuda版本_torch多GPU情况下模型建立遇到的问题

最新推荐文章于 2023-12-08 10:44:12 发布

weixin_39894914

最新推荐文章于 2023-12-08 10:44:12 发布

阅读量177

点赞数

文章标签：查看torch依赖的cuda版本

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39894914/article/details/111711992

版权

问题：最近在实现bert pytorch版本的过程中遇到一个不能使用多GPU的问题，然而github原始版本是可以使用的，修改过程中的一些改动导致使用多GPU时会报如下的错误： arguments are located on different GPUs

定位完问题的位置后一开始以为是cuda设置的问题，后来发现问题出在tranformer模块这里。旧代码在transformer的12个layer建立时采用了简单的list来存储然后用add_module的方法建立模型。但是这样的写法在多GPU的情况下好像是有问题的。以下是修改前后的代码对比：

修改前通过list和add_module方法建立

修改为nn.ModuleList方法建立

出错原因详解：
ModuleList和普通list不一样，它和torch的其他机制结合紧密，继承了nn.Module的网络模型class可以使用nn.ModuleList并识别其中的parameters。而在我们出错的代码中可以看见我们的子module是用普通的list存储的，这种写法的子module不能被主module所识别，所以其参数未加入到主module的参数中去，自然会报第一张图中的arguments are located on different GPUs。

weixin_39894914

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
查看torch依赖的cuda版本_torch多GPU情况下模型建立遇到的问题

问题：最近在实现bert pytorch版本的过程中遇到一个不能使用多GPU的问题，然而github原始版本是可以使用的，修改过程中的一些改动导致使用多GPU时会报如下的错误： arguments are located on different GPUs定位完问题的位置后一开始以为是cuda设置的问题，后来发现问题出在tranformer模块这里。旧代码在transformer的12个layer...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。