pytorch学习笔记（三）：自动求导

最新推荐文章于 2023-02-24 15:29:19 发布

u012436149

最新推荐文章于 2023-02-24 15:29:19 发布

阅读量2.1w

点赞数 8

分类专栏： pytorch pytorch学习笔记

本文链接：https://blog.csdn.net/u012436149/article/details/66971822

版权

pytorch 同时被 2 个专栏收录

25 篇文章 43 订阅

订阅专栏

pytorch学习笔记

25 篇文章 268 订阅

订阅专栏

本片博文主要是对http://pytorch.org/docs/notes/autograd.html的部分翻译以及自己的理解，如有错误，欢迎指正！

Backward过程中排除子图

pytorch的BP过程是由一个函数决定的，loss.backward()，可以看到backward()函数里并没有传要求谁的梯度。那么我们可以大胆猜测，在BP的过程中，pytorch是将所有影响loss的Tensor都求了一次梯度。**但是有时候，我们并不想求所有Tensor的梯度。**那就要考虑如何在Backward过程中排除子图（ie.排除没必要的梯度计算）。
如何BP过程中排除子图？这就用到了Tensor中的一个参数requires_grad

requires_grad:

import torch
x = torch.randn(5, 5)
y = torch.randn(5, 5)
z = torch.randn(5, 5), requires_grad=True)
a = x + y  # x, y的 requires_grad的标记都为false， 所以输出的变量requires_grad也为false
a.requires_grad

False

b = a + z #a ,z 中，有一个 requires_grad 的标记为True，那么输出的变量的 requires_grad为True
b.requires_grad

True

变量的requires_grad标记的运算就相当于or。
如果你想部分冻结你的网络（ie.不做梯度计算），那么通过设置requires_grad标签是非常容易实现的。
下面给出了利用requires_grad使用pretrained网络的一个例子，只fine tune了最后一层。

model = torchvision.models.resnet18(pretrained=True)
for param in model.parameters():
    param.requires_grad = False
# Replace the last fully-connected layer
# Parameters of newly constructed modules have requires_grad=True by default
model.fc = nn.Linear(512, 100)

# Optimize only the classifier
optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)

# 第二种方法，将想要排除的子图使用 with torch.no_grad() 块包住就可以了
# 就不用费劲的将 所有的 leaf Parameter 搞成 requires_grad=False

直接用 detach 为什么不行，因为虽然detach可以保证梯度传不回去，但是原来的子图还是创建了的。

为什么要排除子图

也许有人会问，梯度全部计算，不更新的话不就得了。
这样就涉及了效率的问题了，计算很多没用的梯度是浪费了很多资源的（时间，计算机内存）

参考资料

http://pytorch.org/docs/notes/autograd.html

u012436149

关注

8
点赞
踩
38

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录