报错解决RuntimeError: one of the variables needed for gradient computation has been modified by an inplace
BUG发现
本人的研究生毕业设计是一个关于基于深度学习的三维视觉类的课题,因此经常涉及数据维度的转换。近期在写代码时,出现了如下BUG,试了网上的很多方法,均没有解决,好在功夫不负有心人,最终解开了BUG。这个BUG不算常见,但是很有意思,而且一旦出现定位和解决的过程也是蛮困难的,故写下这篇经验贴希望可以帮助下一个人减少走弯路。
RuntimeError :one of the variables needed for gradient computation has been modified by an inplace
BUG分析
这个BUG描述了这样一个问题:
用于梯度计算的变量通过inplace操作被修改,导致梯度运算失败。网上大多数解决方案如下:
1、:将Pytorch中 torch.relu()通过设置inplace=True进行inplace操作;
2、:对于代码中类似x += y等是操作,改成x = x + y;
3、:把pytorch恢复到1.4之前的环境
4、:把更新梯度的步骤调后放在一起
5、将loss.backward( )改成loss.backward(retain_graph=True)
以上方法博主均已尝试,仍无法解决问题
BUG解决
解决BUG的前提是定位问题从哪开始,而调试项目中最好用的定位问题的方法就是Debug。通过Debug可见问题从loss.backward( )开始。并且通过在计算loss最开始处加入以下代码,报错信息会更加具体提示是网络那部分梯度计算出现问题。
torch.autograd.set_detect_anomaly(True)
于是到此确定问题所在,随后在网上阅读到下面这篇博客给了解决灵感
这篇博客给了解决灵感
本质是因为出现了太多类似X = …X…的运算,导致梯度计算失败,应该尽量用X = …Y…的操作,这是Pytorch本身的一些机制把,底层原因博主没有太多深究。
改之前的代码如下:
residual1 = new_points1
new_points1_tem = new_points1[0:1, 0:1, :, 0:1]
new_points1_tem[:, :, 0, :] = 0
new_points1 = torch.max(new_points1, dim=2)[0]
new_points1 = self.sgu1(new_points1)
new_points1 = new_points1.unsqueeze(-2)
new_points1[0, 0, :, 0] = 0
new_points1 = new_points1 + new_points1_tem
new_points1 = new_points1 + residual1
改之后的代码如下:
residual1 = new_points1.clone()
new_points1_tem = new_points1[:, :, :1, :].clone()
new_points1_tem[:, :, 0, :] = 0
new_points1 = torch.max(new_points1, dim=2)[0]
new_points1_sgu1 = self.sgu1(new_points1)
new_points1_sug1 = new_points1_sgu1.unsqueeze(-2)
new_points1_sug1[:, :, :1, :] = new_points1_tem
new_points1_out = new_points1_sug1 + residual1
至此问题解决。
总结与反思
遇到BUG别慌…总能解决的!!!