GAN训练中的inplace问题（pytorch）

最新推荐文章于 2024-04-29 10:36:10 发布

odbej

最新推荐文章于 2024-04-29 10:36:10 发布

阅读量737

点赞数 1

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/odbej/article/details/125158288

版权

解决GAN训练过程中的报错：one of the variables needed for gradient computation has been modified by an inplace operation

tensor的一些attribute：
* requires_grad 是否需要计算梯度
* grad （叶子节点）梯度值
* grad_fn （非叶子结点）创建该张量所用方法
* is_leaf 是否为叶子节点（用户创建而非运算得到的张量）

只有当节点的requires_grad = True时，反向传播才会计算该节点的梯度值

动态计算图：
计算图有两个主要元素：
* 节点（数据）
* 边（运算）
每次搭建完一个计算图，在反向传播结束后，整个计算图就在内存中被释放了（只要loss.backward涉及到的边和非叶子节点的梯度值都会被释放），只保留叶子节点的梯度值。
如果想在同一计算图中定义多个loss，那么需要设置loss.backward（retain_graph=True）
相当于“注释”掉了loss.backward但保留了其计算出的梯度值

Inplace操作：
a = a + 1 a指向新的内存地址
a += 1 a的内存地址不变
* 对于非叶子节点，inplace操作只要不影响反向传播就没有问题，例如torch.nn.Relu（inplace=True）
* 对于reuqires_grad=False叶子节点，如果该节点不影响反向梯度的计算（该值不被梯度计算所需要比如add操作，或者前方节点梯度截断），那么可以进行inplace操作
* 对于requires_grad=True的叶子节点是不能使用inplace操作的，这会使该叶子节点变成非叶子节点（参与了运算）并“抢占”原先叶子节点的内存地址，从而破坏反向传播

GAN：
生成对抗网络模型中optimizer.step()就是inplace操作（代码参考从PyTorch中的梯度计算出发谈如何避免训练GAN中出现inplace error_算法菜鸟飞高高的博客-CSDN博客

lossD.backward(retain_graph=False)未保留计算图，g=G(t),d=D(g)都被释放，
所以需要重新搭建计算图计算lossG。而此时D中的参数已经经过optimD更新，相当于使用训练过的D去训练G

lossD.backward(retain_graph=True)保留计算图，计算lossG时可以延用之前计算得出的g=G(t),d=D(g)，节省了计算资源，相当于使用参数未经更新的D来训练G。
但D的参数已经被更新了，而这些参数直接参与了反向梯度的计算。lossG中的d中参数已经发生了改变，不再是原来求的d的那个D了。直接运行会报错某个计算梯度需要的变量被inplace操作了
上图使用了detach()函数，该函数的作用就是创建一个张量与原张量共享内存地址，但requires_grad=False，有截断梯度的作用，类似with torch.no_grad 截断了该点的梯度，即使之前的节点需要计算梯度，梯度也无法回传，所以lossG中的d.detach()实际上没有发挥作用

总结：所以最好的方法就是先更新D，然后使用更新过的D重新计算lossG去更新G；或者在一个计算图中先更新G，计算lossD时利用g.detach()截断回传给new_G的梯度需求,再更新D

(纯属个人学习笔记，有错误希望大佬指正，感谢~）

odbej

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
GAN训练中的inplace问题（pytorch）

解决GAN训练过程中的报错：one of the variables needed for gradient computation has been modified by an inplace operation
复制链接

扫一扫