DDP问题记录

要求 Set find unused_parameters = True

最简单的是直接设置True,但是会显著降低模型训练效率。如果想从根本解决,那就要看网络模型里存在不参与梯度计算的网络模型参数或者中间变量有哪些,首先需要找到无用参数(要求梯度但是没有梯度)位置:

                for name, param in model.named_parameters():
                    if param.grad is None:
                        print(name)

找到无用变量后,判断处理方法,目前已经发现以下情况:

  1. 在模型初始化阶段注册了模块或参数, 但是没有使用或者归一化层输出直接计算损失,导致模型认为参数无需更新。解决方案是:注释掉无用模型或参数的注册语句,在forward中去除相关计算。
  2. mask参与了计算而不是fill方法引入,发现在swin transformer的窗口移位注意力中左右/上下mask计算中,mask无需更新但是却有require grad fn,因此个人推测:要么注册时候去除梯度,要么with torch.no_grad()上下文管理相关语句。
  3. 网友提出,forward中尽量不要包含不计算梯度的变量,这个我没遇到过,仅记录。

CUDA搜不到,导致accelerate装不上

我遇到的是路径错误,是因为不同库的CUDA HOME前缀不一致导致的,只需要根据报错信息推测出前缀,在环境变量中临时修改CUDA路径即可。

  • 5
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyTorchDDP(Distributed Data Parallel)是一种多机多卡训练方法,它通过提高batch size来增加并行度,从而加快模型训练速度。DDP使用了一种称为Ring-Reduce的数据交换方法,这种方法提高了通信效率,并且通过启动多个进程的方式减轻了Python GIL(全局解释器锁)的限制。因此,DDP通常比DP(Data Parallel)更快,能够实现略低于使用的卡数的加速比(例如,在四卡下可能会加速3倍)。因此,DDP是目前最流行的多机多卡训练方法之一。 在使用DDP,你只需要在代码中添加一行简单的语句即可使用。具体来说,你需要将你的模型包装在DDP函数中,并指定设备ID(device_ids)和输出设备(output_device)。这样就可以启用DDP,并在多机多卡环境中运行模型训练。 如果你需要了解更多关于PyTorch DDP的详细信息,可以参考一些相关的教程和示例代码,例如《PyTorch分布式训练简明教程》和《PyTorch多机多卡分布式训练》。这些资源可以帮助你更好地理解和使用PyTorchDDP功能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Pytorch中的DDP](https://blog.csdn.net/flyingluohaipeng/article/details/127900749)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值