要求 Set find unused_parameters = True
最简单的是直接设置True,但是会显著降低模型训练效率。如果想从根本解决,那就要看网络模型里存在不参与梯度计算的网络模型参数或者中间变量有哪些,首先需要找到无用参数(要求梯度但是没有梯度)位置:
for name, param in model.named_parameters():
if param.grad is None:
print(name)
找到无用变量后,判断处理方法,目前已经发现以下情况:
- 在模型初始化阶段注册了模块或参数, 但是没有使用或者归一化层输出直接计算损失,导致模型认为参数无需更新。解决方案是:注释掉无用模型或参数的注册语句,在forward中去除相关计算。
- mask参与了计算而不是fill方法引入,发现在swin transformer的窗口移位注意力中左右/上下mask计算中,mask无需更新但是却有require grad fn,因此个人推测:要么注册时候去除梯度,要么with torch.no_grad()上下文管理相关语句。
- 网友提出,forward中尽量不要包含不计算梯度的变量,这个我没遇到过,仅记录。
CUDA搜不到,导致accelerate装不上
我遇到的是路径错误,是因为不同库的CUDA HOME前缀不一致导致的,只需要根据报错信息推测出前缀,在环境变量中临时修改CUDA路径即可。