PyTorch学习笔记4—PyTorch深度学习入门(二)—自动求导
本篇是pytorch学习笔记系列第四篇,这一系列博客应该大多会来自于开源教程书:pytorch中文手册(pytorch handbook),其github网址为:https://github.com/zergtant/pytorch-handbook 本篇博客内容来自于这一手册以及pytorch官方的教程 ,感兴趣的观众门可以去自行下载
2. Autograd: 自动求导机制
PyTorch 中所有神经网络的核心是 autograd 包。接下来我们将简单介绍一下这个包,然后训练第一个简单的神经网络.
autograd包为张量上的所有操作提供了自动求导. 它是一个在运行时定义的框架,这意味着反向传播是根据你的代码来确定如何运行,并且每次迭代可以是不同的.
2.1 Tensor类的一些相关属性和方法
torch.Tensor是这个包的核心类.如果设置 .requires_grad
为 True, 那么将会追踪对于该张量的操作. 当完成计算后通过调用 .backward()
会自动计算所有的梯度. 这个张量的所有梯度将会自动积累到 .grad
属性.
要阻止张量跟踪历史记录,可以调用.detach()
方法将其与计算历史记录分离,并禁止跟踪它将来的计算记录。
也可以将代码块包装在with torch.no_grad():
中,在评估模型时特别有用,因为模型可能具有requires_grad = True
的可训练参数,但是我们不需要梯度计算。
2.2 Function类的一些相关属性和方法
在自动梯度计算中还有另外一个重要的类Function.
Tensor 和 Function互相连接并生成一个非循环图,它表示和存储了完整的计算历史。 每个张量都有一个.grad_fn
属性,这个属性引用了一个创建了Tensor的Function(除非这个张量是用户手动创建的 即 这个张量的 grad_fn 是 None)。
如果需要计算导数,你可以在Tensor上调用.backward()
。
如果Tensor是一个标量(即它只包含一个元素数据)则不需要为backward()指定任何参数
但是如果它有更多的元素,你需要指定一个gradient 参数来匹配张量的形状。
注:在其他的文章中你可能会看到说将Tensor包裹到Variable中提供自动梯度计算,Variable
这个在0.41版中已经被标注为过期了,现在可以直接使用Tensor,官方文档在这里:
(https://pytorch.org/docs/stable/autograd.html#variable-deprecated)
2.3 一个例子
2.3.1 设置requires_grad来追踪计算历史
创建一个张量并设置 requires_grad=True 用来追踪他的计算历史
import torch
x = torch.ones(2, 2, requires_grad=True)
print(x)
y = x + 2
print(y)
结果:
tensor([[1., 1.],
[1., 1.]], requires_grad=True)
tensor([[3., 3.],
[3., 3.]], grad_fn=<AddBackward>)
因为对张量进行操作,结果y已经被计算出来了,所以 , grad_fn已经被自动生成了
print(y.grad_fn)
根据输出结果可以看到y是进行了add操作的:
<AddBackward object at 0x00000232535FD860>
对y进行一个操作
z = y * y * 3
out = z.mean()
print(z, out)
根据输出结果可以看到z是进行了mul操作,out是进行了mean操作的
tensor([[27., 27.],
[27., 27.]], grad_fn=<MulBackward>) tensor(27., grad_fn=<MeanBackward1>)
2.3.2 对标量计算梯度
接上例,因为 out是一个标量(scalar), out.backward() 等于(自动补充为)out.backward(torch.tensor(1)).
运行如下代码
out.backward()
print(x.grad)
更新梯度后查看x的梯度:
tensor([[4.5000, 4.5000],
[4.5000, 4.5000]])
得到矩阵 由4.5组成,其由来如下图所示
2.3.3 对张量计算梯度
需要指定一个gradient 参数来匹配张量的形状
x = torch.randn(3, requires_grad=True)
y = x * 2
while y.data.norm() < 1000:
y = y * 2
print(y)
gradients = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(gradients)
print(x.grad)
输出结果:
tensor([-920.6895, -115.7301, -867.6995], grad_fn=<MulBackward>)
tensor([ 51.2000, 512.0000, 0.0512])
2.3.4 禁止自动求导
如果.requires_grad=True,但是你又不希望进行autograd的计算, 那么可以将变量包裹在 with torch.no_grad()中:
print(x.requires_grad)
print((x ** 2).requires_grad)
with torch.no_grad():
print((x ** 2).requires_grad)
输出结果为:
True
True
False
更多关于自动求导和Function类的内容可看官方文档:https://pytorch.org/docs/autograd
本篇完…
本系列已更新的学习笔记:
PyTorch学习笔记1—PyTorch简介
PyTorch学习笔记2—win10下pytorch-gpu安装以及CUDA安装记录
PyTorch学习笔记3—PyTorch深度学习入门(一)—基本方法
PyTorch学习笔记4—PyTorch深度学习入门(二)—自动求导
PyTorch学习笔记5—PyTorch深度学习入门(三)—神经网络
PyTorch学习笔记6—PyTorch深度学习入门(四)—入门实例