pytorch教程(1.5)——梯度自动计算

最新推荐文章于 2024-06-25 10:43:41 发布

leetteel

最新推荐文章于 2024-06-25 10:43:41 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习 # Pytorch 文章标签： pytorch 深度学习神经网络

本文链接：https://blog.csdn.net/weixin_40653652/article/details/120283142

版权

深度学习同时被 2 个专栏收录

20 篇文章 4 订阅

订阅专栏

Pytorch

20 篇文章 1 订阅

订阅专栏

摘要

在训练神经网络时，最常用的算法是反向传播。在该算法中，参数（模型权重）根据损失函数相对于给定参数的梯度进行调整。
为了计算这些梯度，PyTorch 有一个名为 torch.autograd 的内置微分引擎。它支持任何计算图的梯度自动计算。
考虑最简单的一层神经网络，输入 x，参数 w 和 b，以及一些损失函数。它可以通过以下方式在 PyTorch 中定义：

import torch

x = torch.ones(5)  # input tensor
y = torch.zeros(3)  # expected output
w = torch.randn(5, 3, requires_grad=True)
b = torch.randn(3, requires_grad=True)
z = torch.matmul(x, w)+b
loss = torch.nn.functional.binary_cross_entropy_with_logits(z, y)

张量、函数和计算图

此代码定义了以下计算图：
在这里插入图片描述
在这个网络中，w 和 b 是我们需要优化的参数。因此，我们需要能够计算关于这些变量的损失函数的梯度。为了做到这一点，我们设置了这些张量的 requires_grad 属性。

您可以在创建张量时或稍后使用 x.requires_grad_(True) 方法设置 requires_grad 的值。

我们应用于张量来构建计算图的函数实际上是类 Function 的对象。该对象知道如何在前向计算函数，以及如何在反向传播步骤中计算其导数。对反向传播函数的引用存储在张量的 grad_fn 属性中。您可以在文档中找到有关 Function 的更多信息。

print('Gradient function for z =', z.grad_fn)
print('Gradient function for loss =', loss.grad_fn)

在这里插入图片描述

计算梯度

为了优化神经网络中参数的权重，我们需要计算损失函数关于参数的导数，即我们需要 $\frac{\partial loss}{\partial w}$ 和 $\frac{\partial loss}{\partial b}$ 在一些固定的 x 和 y 值下。为了计算这些导数，我们调用 loss.backward()，然后从 w.grad 和 b.grad 中检索值：

loss.backward() 
print(w.grad) 
print(b.grad)

在这里插入图片描述

我们只能获取计算图的叶节点的 grad 属性，这些节点的 requires_grad 属性设置为 True。对于我们图中的所有其他节点，渐变将不可用。
出于性能原因，我们只能在给定的图上使用向后一次执行梯度计算。如果我们需要在同一个图上进行多次反向调用，我们需要将 retain_graph=True 传递给反向调用。

禁用梯度跟踪

默认情况下，所有具有 requires_grad=True 的张量都在跟踪它们的计算历史并支持梯度计算。但是，在某些情况下我们不需要这样做，例如，当我们训练了模型并且只想将其应用于某些输入数据时，即我们只想通过网络进行前向计算。我们可以通过用 torch.no_grad() 块包围我们的计算代码来停止跟踪计算：

z = torch.matmul(x, w)+b
print(z.requires_grad)

with torch.no_grad():
    z = torch.matmul(x, w)+b
print(z.requires_grad)

在这里插入图片描述

获得相同结果的另一种方法是在张量上使用 detach() 方法：

z = torch.matmul(x, w)+b 
z_det = z.detach() 
print(z_det.requires_grad)

在这里插入图片描述
您可能想要禁用梯度跟踪的原因有：
将神经网络中的某些参数标记为冻结参数。这是微调预训练网络的一个非常常见的场景，当您只进行前向传递时，可以加快计算速度，因为对不跟踪梯度的张量进行计算会更有效。

选读：张量梯度和雅可比积

在很多情况下，我们有一个标量损失函数，我们需要计算一些参数的梯度。但是，有些情况下输出函数是任意张量。在这种情况下，PyTorch 允许您计算所谓的雅可比积，而不是实际的梯度。
对于向量函数 $\vec{y}=f(\vec{x})$ ，其中 $\vec{x}=\langle x_1,\dots,x_n\rangle$ 和 $\vec{y}=\langle y_1,\dots,y_m\rangle$ ， y 关于\的梯度 $\vec{x}$ 由雅可比矩阵给出：
在这里插入图片描述
PyTorch 允许您为给定的输入向量 $v=(v_1 \dots v_m) \cdot J$ 计算雅可比矩阵本身，而不是计算雅可比矩阵本身。这是通过使用 v 作为参数调用backward来实现的。 v 的大小应该与原始张量的大小相同，我们要计算其乘积：

inp = torch.eye(5, requires_grad=True)
out = (inp+1).pow(2)
out.backward(torch.ones_like(inp), retain_graph=True)
print("First call\n", inp.grad)
out.backward(torch.ones_like(inp), retain_graph=True)
print("\nSecond call\n", inp.grad)
inp.grad.zero_()
out.backward(torch.ones_like(inp), retain_graph=True)
print("\nCall after zeroing gradients\n", inp.grad)

在这里插入图片描述

请注意，当我们使用相同的参数第二次向后调用时，梯度的值是不同的。发生这种情况是因为在进行反向传播时，PyTorch 会累积梯度，即将计算梯度的值添加到计算图所有叶节点的 grad 属性中。如果要计算适当的梯度，则需要先将 grad 属性归零。在现实生活中的训练中，优化器可以帮助我们做到这一点。

以前我们调用没有参数的backward() 函数。这本质上相当于调用backward(torch.tensor(1.0))，这是在标量值函数（例如神经网络训练期间的损失）的情况下计算梯度的有用方法。

leetteel

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
pytorch教程(1.5)——梯度自动计算

摘要在训练神经网络时，最常用的算法是反向传播。在该算法中，参数（模型权重）根据损失函数相对于给定参数的梯度进行调整。为了计算这些梯度，PyTorch 有一个名为 torch.autograd 的内置微分引擎。它支持任何计算图的梯度自动计算。考虑最简单的一层神经网络，输入 x，参数 w 和 b，以及一些损失函数。它可以通过以下方式在 PyTorch 中定义：import torchx = torch.ones(5) # input tensory = torch.zeros(3) #
复制链接

扫一扫