自动求梯度

最新推荐文章于 2024-02-22 18:48:04 发布

Clark-dj

最新推荐文章于 2024-02-22 18:48:04 发布

阅读量980

点赞数 1

分类专栏： # 动手深度学习

本文链接：https://blog.csdn.net/dujuancao11/article/details/108290194

版权

动手深度学习专栏收录该内容

38 篇文章 15 订阅

订阅专栏

《动手学深度学习pytorch》部分学习笔记，仅用作自己复习。

在深度学习中，我们经常需要对函数求梯度（gradient）。PyTorch提供的autograd 包能够根据输⼊和前向传播过程自动构建计算图，并执行反向传播。本节将介绍如何使⽤用autograd包来进行自动求梯度的有关操作。

Tensor 是这个包的核心类，如果将其属性 .requires_grad 设置为 True ，它将开始追踪(track)在其上的所有操作（这样就可以利用链式法则进行梯度传播了）。完成计算后，可以调用 .backward() 来完成所有梯度计算。此 Tensor 的梯度将累积到 .grad 属性中。

注意在 y.backward() 时，如果 y 是标量量，则不需要为 backward() 传入任何参数；否则，需要传⼊一个与 y 同形的 Tensor

如果不想要被继续追踪，可以调⽤ .detach() 将其从追踪记录中分离出来，这样就可以防止将来的计算被追踪，这样梯度就传不不过去了了。此外，还可以用 with torch.no_grad() 将不想被追踪的操作代码块包裹起来，这种⽅法在评估模型的时候很常⽤，因为在评估模型时，我们并不需要计算可训练参数（ requires_grad=True ）的梯度。

x = torch.ones(2, 2, requires_grad=True)
y = x + 2
z = y * y * 3
out = z.mean()
print(z, out) # 因为 out 是一个标量，所以调用 backward() 时不需要指定求导变量：
out.backward() # 等价于 out.backward(torch.tensor(1.)) 
print(x.grad)

输出：

tensor([[4.5000, 4.5000],
[4.5000, 4.5000]])

再来看看中断梯度追踪的例例⼦子：

x = torch.tensor(1.0, requires_grad=True)
y1 = x ** 2
with torch.no_grad():
y2 = x ** 3
y3 = y1 + y2
print(x.requires_grad)
print(y1, y1.requires_grad) # True
print(y2, y2.requires_grad) # False
print(y3, y3.requires_grad) # True

输出：

True
tensor(1., grad_fn=<PowBackward0>) True
tensor(1.) False
tensor(2., grad_fn=<ThAddBackward>) True

那么根据链式法则我们有关于的雅克⽐比矩阵就为:

# 再来反向传播⼀一次，注意grad是累加的
out2 = x.sum()
out2.backward()
print(x.grad)
out3 = x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)

输出：

tensor([[5.5000, 5.5000],
[5.5000, 5.5000]])
tensor([[1., 1.],
[1., 1.]])

为什么在 y.backward() 时，如果 y 是标量，则不需要为 backward() 传⼊任何参数；否则，需要传入⼀个与 y 同形的 Tensor ? 简单来说就是为了避免向量（甚⾄更⾼维张量）对张量求导，⽽转换成标量对张量量导。

举个例子，假设形状为 m x n 的矩阵 X 经过运算得到了 p x q 的矩阵 Y，Y ⼜经过运算得到了 s x t 的矩阵 Z。那么按照前面讲的规则，dZ/dY 应该是⼀个 s x t x p x q 四维张量量，dY/dX 是⼀一个 p x q x m x n的四维张量。

问题来了，怎样反向传播？怎样将两个四维张量相乘？？？这要怎么乘？？？就算能解决两个四维张量量怎么乘的问题，四维和三维的张量又怎么乘？导数的导数⼜怎么求，这⼀连串的问题，感觉要疯掉…… 为了避免这个问题，我们不允许张量对张量求导，只允许标量对张量求导，求导结果是和⾃变量量同形的张量。

所以必要时我们要把张量通过将所有张量的元素加权求和的⽅式转换为标量，举个例⼦，假设 y 由⾃自变量 x 计算⽽来， w 是和 y 同形的张量，则 y.backward(w) 的含义是：先计算 l = torch.sum(y * w) ，则 l 是个标量量，然后求 l 对⾃变量 x 的导数。

Clark-dj

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
自动求梯度

《动手学深度学习pytorch》部分学习笔记，仅用作自己复习。在深度学习中，我们经常需要对函数求梯度（gradient）。PyTorch提供的autograd 包能够根据输⼊和前向传播过程自动构建计算图，并执行反向传播。本节将介绍如何使⽤用autograd包来进行自动求梯度的有关操作。Tensor 是这个包的核心类，如果将其属性 .requires_grad 设置为 True ，它将开始追踪(track)在其上的所有操作（这样就可以利用链式法则进行梯度传播了）。完成计算后，可以调用 .backwar
复制链接

扫一扫