DDP问题记录

最新推荐文章于 2024-08-20 17:11:23 发布

帅气的阿飞

最新推荐文章于 2024-08-20 17:11:23 发布

阅读量267

点赞数 5

文章标签： pytorch

本文链接：https://blog.csdn.net/f_elite/article/details/140549627

版权

要求 Set find unused_parameters = True

最简单的是直接设置True，但是会显著降低模型训练效率。如果想从根本解决，那就要看网络模型里存在不参与梯度计算的网络模型参数或者中间变量有哪些，首先需要找到无用参数（要求梯度但是没有梯度）位置：

                for name, param in model.named_parameters():
                    if param.grad is None:
                        print(name)

找到无用变量后，判断处理方法，目前已经发现以下情况：

在模型初始化阶段注册了模块或参数，但是没有使用或者归一化层输出直接计算损失，导致模型认为参数无需更新。解决方案是：注释掉无用模型或参数的注册语句，在forward中去除相关计算。
mask参与了计算而不是fill方法引入，发现在swin transformer的窗口移位注意力中左右/上下mask计算中，mask无需更新但是却有require grad fn，因此个人推测：要么注册时候去除梯度，要么with torch.no_grad()上下文管理相关语句。
网友提出，forward中尽量不要包含不计算梯度的变量，这个我没遇到过，仅记录。