pytorch的函数 .detach()

最新推荐文章于 2024-02-13 00:33:55 发布

群星闪耀

最新推荐文章于 2024-02-13 00:33:55 发布

阅读量1.5w

点赞数 30

分类专栏： python pytorch

本文链接：https://blog.csdn.net/weixin_40244676/article/details/117957106

版权

本文介绍了PyTorch中的detach()函数，用于在训练过程中切断部分网络分支的反向传播，使得这部分变量不再计算梯度。文章通过实例解释了detach()的作用，指出即使detach后的tensor与原始tensor共享内存，但反向传播时会停止在detach点，不影响主网络的梯度计算。

摘要由CSDN通过智能技术生成

前言：当我们再训练网络的时候可能希望保持一部分的网络参数不变，只对其中一部分的参数进行调整；或者值训练部分分支网络，并不让其梯度对主网络的梯度造成影响，这时候我们就需要使用detach()函数来切断一些分支的反向传播

一、说明

返回一个新的tensor，从当前计算图中分离下来的，但是仍指向原变量的存放位置,不同之处只是requires_grad为false，得到的这个tensor永远不需要计算其梯度，不具有grad。

即使之后重新将它的requires_grad置为true,它也不会具有梯度grad

这样我们就会继续使用这个新的tensor进行计算，后面当我们进行反向传播时，到该调用detach()的tensor就会停止，不能再继续向前进行传播

注意：

使用detach返回的tensor和原始的tensor共同一个内存，即一个修改另一个也会跟着改变。

x=T.ones(10, requires_grad=True)

y=x**2
z=x**3
r=(y+z).sum()
make_dot(r).render("attached", format="png")

这个代码的graph应该是如下所示：

attached graph

所以，反向传播的结果应该是5，因为求导是2+

关注

专栏目录