Pytorch torch.Tensor.detach()方法的用法及修改指定模块权重的方法

最新推荐文章于 2024-04-25 15:07:46 发布

DLANDML

最新推荐文章于 2024-04-25 15:07:46 发布

阅读量10w+

点赞数 4

分类专栏： Pytorch 文章标签： detach torch

本文链接：https://blog.csdn.net/l641208111/article/details/118678322

版权

Pytorch 专栏收录该内容

18 篇文章 14 订阅

订阅专栏

本文探讨了detach()函数在PyTorch中的作用，如何在保持数据独立性的同时进行模型训练，以及在不同场景下如何正确运用它来控制梯度传播。通过实例说明，理解了如何在不影响A网络参数的情况下利用B网络的梯度更新，以及如何在希望修改A网络参数时设置requires_grad属性。

摘要由CSDN通过智能技术生成

detach

detach的中文意思是分离，官方解释是返回一个新的Tensor,从当前的计算图中分离出来
在这里插入图片描述
需要注意的是，返回的Tensor和原Tensor共享相同的存储空间，但是返回的 Tensor 永远不会需要梯度

import torch as t

a = t.ones(10,)
b = a.detach()
print(b)
tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

那么这个函数有什么作用?
–假如A网络输出了一个Tensor类型的变量a, a要作为输入传入到B网络中，如果我想通过损失函数反向传播修改B网络的参数，但是不想修改A网络的参数，这个时候就可以使用detcah()方法

a = A(input)
a = detach()

b = B(a)
loss = criterion(b, target)
loss.backward()

来看一个实际的例子：

import torch as t
x = t.ones(1, requires_grad=True)
x.requires_grad   #True
y = t.ones(1, requires_grad=True)
y.requires_grad   #True

x = x.detach() 　　#分离之后
x.requires_grad   #False

y = x+y      	  #tensor([２.])
y.requires_grad   #我还是True
y.retain_grad()   #y不是叶子张量，要加上这一行

z = t.pow(y, 2)
z.backward()  　　#反向传播

y.grad  　　　　　　#tensor([４.])
x.grad  　　　　　　#None

以上代码就说明了反向传播到y就结束了，没有到达x,所以x的grad属性为None

既然谈到了修改模型的权重问题，那么还有一种情况是:
–假如A网络输出了一个Tensor类型的变量a, a要作为输入传入到B网络中，如果我想通过损失函数反向传播修改A网络的参数，但是不想修改B网络的参数，这个时候又应该怎么办了?

这时可以使用Tensor.requires_grad属性，只需要将requires_grad修改为False即可．

for param in B.parameters():
	param.requires_grad = False

a = A(input)
b = B(a)
loss = criterion(b, target)
loss.backward()

DLANDML

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录