参考了以下内容:
pytorch中inplace以及detach()操作对求梯度过程(backward)的影响 - 知乎 (zhihu.com)
并进行了简单的总结:
A. detach会分离计算图,但共享内存。即使强行设requires_grad=True,它没有计算图,反向传播也传不回去。就是backward会断开。
B. 不能用in-place的两种情况:
a.对于要求梯度的叶子张量不能
b.对于 在求梯度阶段需要用到的张量 不能 (如下例所示)
C.非内置操作只会改变该处的值,但内置操作会同时改变最终的梯度,以及计算图。 .data的内置操作会改变值,以及梯度,不会改变计算图。
对于B这点进行详细说明,其他可以去参考原文。
首先叶子张量是我们要反向传播优化的,肯定是需要其原值的,以及其梯度,内置操作会改变其原值,就没办法就是优化了。
对于一部分的非叶子张量,也是不可以内置操作的,下面举出一个简单的例子,帮助理解。*=是一个内置操作。 (导入模块: import torch)
会报错,因为内置操作那一步的梯度是2f,但是f的值因为内置操作会改变,而求的梯度是会用到f这个变量原先存储的值的。所以报错。
而变成下面这样,就不会出错了,正常反向传播。因为此时梯度是6,与f的值无关。