分布式多卡训练模型时的nn.ModuleList踩坑记录

最新推荐文章于 2024-05-21 17:26:41 发布

Lethe♪

最新推荐文章于 2024-05-21 17:26:41 发布

阅读量165

点赞数

文章标签：人工智能 pytorch 神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33854260/article/details/134872420

版权

在使用分布式模型训练时，遇到一个奇怪的问题，当把参数放在nn.ModuleList中，并把nn.ModuleList放在列表中时，模型训练精度显著下降，且收敛速度变慢：

xx = [nn.ModuleList(layers)]

xx = nn.ModuleList(layers)

如上，采用第一种方案的原因是需要多个参数，从而能够通过列表的index索引到正确的layer。然而，[nn.ModuleList(layers)]操作会使得这些层仅在CPU中，需要在使用的地方调用cuda():

xx[0].cuda()

调用cuda()的操作不会报错，能够正常训练。但是，之后会发现，模型收敛速度变慢，精度降低。猜测根本原因在于，分布式训练时，梯度应该在各个显卡中独立计算。而cuda()操作会导致数据放在同一个显卡，从而导致梯度计算出现误差。

隐藏的bug，调试了很久才发现该问题！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分布式多卡训练模型时的nn.ModuleList踩坑记录

调用cuda()的操作不会报错，能够正常训练。但是，之后会发现，模型收敛速度变慢，精度降低。猜测根本原因在于，分布式训练时，梯度应该在各个显卡中独立计算。而cuda()操作会导致数据放在同一个显卡，从而导致梯度计算出现误差。如上，采用第一种方案的原因是需要多个参数，从而能够通过列表的index索引到正确的layer。隐藏的bug，调试了很久才发现该问题！
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。