PyTorch中级教程：深入理解自动求导和优化-CSDN博客

本文链接：https://blog.csdn.net/u012409436/article/details/131972673

本文介绍了PyTorch中的自动求导机制Autograd，它是神经网络训练的核心，允许动态构建计算图。接着讲解了如何进行梯度计算和反向传播，并展示了如何使用优化器如SGD进行模型训练。这些特性使得PyTorch在深度学习实践中易于使用且高效。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在你已经掌握了如何使用PyTorch构建神经网络的基础上，接下来我们将深入探讨PyTorch的两个核心特性：自动求导（Autograd）和优化（Optimization）。这两个特性在深度学习模型的训练过程中起着至关重要的作用。

一、自动求导

在PyTorch中，所有神经网络的核心是autograd包。先简单理解这个包，然后我们会去训练我们的第一个神经网络。

autograd包提供了所有张量上的自动求导操作。它是一个在运行时定义的框架，这意味着你的反向传播是由你的代码运行方式决定的，因此每次迭代可以不同。

让我们通过一些简单的例子来更好地理解这个概念：

import torch

# 创建一个张量并设置requires_grad=True来追踪与它相关的计算
x = torch.ones(2, 2, requires_grad=True)
print(x)

# 对张量进行操作
y = x + 2
print(y)

# 因为y是操作的结果，所以它有grad_fn属性
print(y.grad_fn)

# 对y进行更多操作
z = y * y * 3
out = z.mean()

print(z, out)

二、梯度

我们可以通过调用.backward()来进行反向传播，计算梯度：

out.backward()

# 输出梯度 d(out)/dx
print(x.grad)

三、训练模型

在定义神经网络后，我们可以将数据输入到网络中，并使用反向传播计算梯度。然后使用优化器更新网络的权重：

import torch.optim as optim

# 创建优化器（随机梯度下降）
optimizer = optim.SGD(net.parameters(), lr=0.01)

# 在训练循环中：
optimizer.zero_grad()   # 清零梯度缓存
output = net(input)     # 输入数据并得到输出
loss = criterion(output, target)   # 计算损失函数
loss.backward()     # 反向传播
optimizer.step()    # 更新权重