#amp错误ZeroDivisionError: float division by zero
##查资料查了半天,发现网上大多给出的原因是除数里面有0
但是仔细查看代码报错的位置好像和apex中的amp有关
又结合一些网上的训练代码对比发现下列这块代码不一样,问题应该就是出在这块
masks_pred = net(imgs)
loss = criterion(masks_pred, true_masks)
epoch_loss += loss.item()
writer.add_scalar('Loss/train', loss.item(), global_step)
pbar.set_postfix(**{'loss (batch)': loss.item()})
optimizer.zero_grad()
#loss.backward()
with amp.scale_loss(loss, optimizer) as scaled_loss:
scaled_loss.backward()
optimizer.step()
主要就是在这里
optimizer.zero_grad()
#loss.backward()
with amp.scale_loss(loss, optimizer) as scaled_loss:
scaled_loss.backward()
optimizer.step()
不太一样
修改方法:改成下面这样
optimizer.zero_grad()
loss.backward()
#with amp.scale_loss(loss, optimizer) as scaled_loss:
#scaled_loss.backward()
optimizer.step()```
重新运行训练代码,成功解决问题。即放弃了使用apex的加速功能,不过总比跑不起来代码要好!