PyTorch框架----torch.autograd

最新推荐文章于 2024-07-22 14:33:33 发布

胡乱儿起个名

最新推荐文章于 2024-07-22 14:33:33 发布

阅读量695

点赞数 10

分类专栏： PyTorch框架文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/qq_44815135/article/details/136160288

版权

PyTorch框架专栏收录该内容

30 篇文章 1 订阅

订阅专栏

文章目录

一、Variable
二、torch.autograd
三、torch.autograd.backward(variables, grad_variables, retain_variables=False)
四、自动求导机制
- 1、从后向中排除子图
- 2、自动求导如何编码历史信息

一、Variable

Variable是PyTorch中的一个类，它封装了张量（Tensor）并具有自动求导（Autograd）的功能。Variable在背后创建了一个计算图，这是深度学习中非常重要的概念。计算图是一种表示计算流程的有向无环图，它将操作表示为节点，将数据流表示为边。通过计算图，PyTorch可以追踪每个操作的输入和输出，从而实现自动求导。

二、torch.autograd

torch.autograd提供了类和函数用来对任意标量函数进行求导。要想使用自动求导，只需要对已有的代码进行微小的改变。只需要将所有的tensor包含进Variable对象中即可。

三、torch.autograd.backward(variables, grad_variables, retain_variables=False)

给定图的叶子节点variables, 计算图中变量的梯度和。计算图可以通过链式法则求导。如果variables中的任何一个variable是非标量(non-scalar)的，且requires_grad=True。那么此函数需要指定grad_variables，它的长度应该和variables的长度匹配，里面保存了相关variable的梯度(对于不需要gradient tensor的variable，None是可取的)。

此函数累积leaf variables计算的梯度。你可能需要在调用此函数之前将leaf variable的梯度置零。

参数说明:

variables (variable 列表) – 被求微分的叶子节点，即 ys 。
grad_variables (Tensor 列表) – 对应variable的梯度。仅当variable不是标量且需要求梯度的时候使用
retain_variables (bool) – True,计算梯度时所需要的buffer在计算完梯度后不会被释放。如果想对一个子图多次求微分的话，需要设置为True。

四、自动求导机制

1、从后向中排除子图

每个变量都有两个标志：requires_grad和volatile。它们都允许从梯度计算中精细地排除子图，并可以提高效率。

requires_grad：

如果有一个单一的输入操作需要梯度，它的输出也需要梯度。相反，只有所有输入都不需要梯度，输出才不需要。如果其中所有的变量都不需要梯度进行，后向计算不会在子图中执行。


>>> x = Variable(torch.randn(5, 5))
>>> y = Variable(torch.randn(5, 5))
>>> z = Variable(torch.randn(5, 5), requires_grad=True)
>>> a = x + y
>>> a.requires_grad
False
>>> b = a + z
>>> b.requires_grad
True

volatile
纯粹的inference模式下推荐使用volatile，当你确定你甚至不会调用.backward()时。它比任何其他自动求导的设置更有效——它将使用绝对最小的内存来评估模型。volatile也决定了require_grad is False。

volatile不同于require_grad的传递。如果一个操作甚至只有有一个volatile的输入，它的输出也将是volatile。Volatility比“不需要梯度”更容易传递——只需要一个volatile的输入即可得到一个volatile的输出，相对的，需要所有的输入“不需要梯度”才能得到不需要梯度的输出。使用volatile标志，您不需要更改模型参数的任何设置来用于inference。创建一个volatile的输入就够了，这将保证不会保存中间状态。

>>> regular_input = Variable(torch.randn(5, 5))
>>> volatile_input = Variable(torch.randn(5, 5), volatile=True)
>>> model = torchvision.models.resnet18(pretrained=True)
>>> model(regular_input).requires_grad
True
>>> model(volatile_input).requires_grad
False
>>> model(volatile_input).volatile
True
>>> model(volatile_input).creator is None
True

2、自动求导如何编码历史信息

每个变量都有一个.creator属性，它指向把它作为输出的函数。这是一个由Function对象作为节点组成的有向无环图（DAG）的入口点，它们之间的引用就是图的边。每次执行一个操作时，一个表示它的新Function就被实例化，它的forward()方法被调用，并且它输出的Variable的创建者被设置为这个Function。然后，通过跟踪从任何变量到叶节点的路径，可以重建创建数据的操作序列，并自动计算梯度。

胡乱儿起个名

关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
PyTorch框架----torch.autograd

Volatility比“不需要梯度”更容易传递——只需要一个volatile的输入即可得到一个volatile的输出，相对的，需要所有的输入“不需要梯度”才能得到不需要梯度的输出。那么此函数需要指定grad_variables，它的长度应该和variables的长度匹配，里面保存了相关variable的梯度(对于不需要gradient tensor的variable，None是可取的)。这是一个由Function对象作为节点组成的有向无环图（DAG）的入口点，它们之间的引用就是图的边。
复制链接

扫一扫