pytorch之detach()函数理解

原创已于 2022-02-28 11:43:55 修改 · 2w 阅读

56 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #深度学习 #python

于 2021-10-11 22:52:16 首次发布

pytorch 专栏收录该内容

7 篇文章

订阅专栏

detach()和data()都是用于从计算图中分离张量，但detach()返回的张量不再跟踪历史，不计算梯度，而data()与原始张量共享内存，可能引发in-place操作的问题。detach_()是in-place版本，直接修改原张量。理解这些差异对于正确使用PyTorch的梯度计算至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://blog.csdn.net/qq_27825451/article/details/95498211

https://blog.csdn.net/weixin_33913332/article/details/93300411?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-4.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-4.no_search_link

detach() & data()

detach()返回一个新的tensor，是从当前计算图中分离下来的，但是仍指向原变量的存放位置，其grad_fn=None且requires_grad=False，得到的这个tensor永远不需要计算其梯度，不具有梯度grad，即使之后重新将它的requires_grad置为true,它也不会具有梯度grad。

注意：返回的tensor和原始的tensor共享同一内存数据。in-place函数修改会在两个tensor上同时体现(因为它们共享内存数据)，此时当要对其调用backward()时可能会导致错误。

data()函数和 detach() 函数功能相同，但是其不能保证in-place的安全性。

In-place 正确性检查：所有的tensor都会记录用在他们身上的 in-place operations。如果pytorch检测到tensor在一个Function中已经被保存用来backward，但是之后它又被in-place operations修改。当这种情况发生时，在backward的时候，pytorch就会报错。这种机制保证了，如果你用了in-place operations，但是在backward过程中没有报错，那么梯度的计算就是正确的。