在深度学习中,我们经常需要对函数求梯度(gradient)。PyTorch提供的autograd包能够根据输⼊和前向传播过程自动构建计算图,并执行反向传播。本节将介绍如何使用autograd包来进行自动求梯度的有关操作。
目录
1. 概念
上⼀节介绍的Tensor是这个包的核心类,如果将其属性.requires_grad设置为True,它将开始追踪(track)在其上的所有操作(这样就可以利用链式法则进⾏梯度传播了)。完成计算后,可以调用.backward()来完成所有梯度计算。此Tensor的梯度将累积到 .grad属性中。
注意在调用y.backward()时,如果y是标量,则不需要为backward()传入任何参数;否则,需要传⼊一个与y同形的Tensor(值为y的梯度) 。
如果不想要被继续追踪,可以调⽤.detach()将其从追踪记录中分离出来,这样就可以防⽌将来的计算被追踪,这样梯度就传不过去了。此外,还可以用with torch.no_grad():将不想被追踪的操作代码块包裹起来,这种方法在评估模型的时候很常用,因为在评估模型(预测、测试)时,我们并不需要计算可训练参数 (requires_grad=True )的梯度。
Function是另外一个很重要的类。Tensor 和Function互相结合就可以构建一个记录有整个计算过程的有向⽆无环图(DAG)。每个Tensor都有一个.grad_fn属性,该属性即创建该Tensor的Function , 就是说该Tensor是不是通过某些运算得到的,若是,grad_fn则返回一个与这些运算相关的对象,否则是None。
2. Tensor
创建⼀个Tensor并设置requires_grad属性为True:
x = torch.ones(2,2,requires_grad=True)
print(x)
print(x.grad_fn)
再做⼀下运算操作:
y = x + 2
print(y)
print(y.grad_fn)
注意x是直接创建的,所以它没有grad_fn , 而y是通过一个加法操作创建的,所以它有一个为<AddBackward0>的grad_fn.
像x这种直接创建的称为叶子节点,叶子节点对应的grad_fn为None。
print(x.is_leaf,y.is_leaf)
再来点复杂度运算操作:
z = x*y*3
out = z.mean()
print(z,out)
通过.requires_grad_()这种inplace操作,可以改变tensor的requires_grad属性:
a = torch.randn(2,2) #默认requires_grad属性为False
a = a*3/(a-1)
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a*a).sum() #注意和a*a.sum()的区别
print(b.requires_grad)
print(b.grad_fn)
3. 梯度
因为out是一个标量,所以调用.backward()时不需要指定求导变量:
out.backward() #等价于out.backward(torch.tensor(1.))
我们看一下out对于x的梯度:
print(x.grad)
我们令out为o, 因为:
所以:
关于向量的函数,那么
关于
的梯度就是一个雅可比矩阵:
⽽autograd这个包就是⽤来计算一些雅克比矩阵的乘积的。例如,如果v是一个标量函数的梯度:
那么根据链式法则我们有l关于的雅克⽐矩阵/梯度就为:
注意:grad在反向传播过程中是累加的(accumulated),这意味着每一次运行反向传播,梯度都会累加之前的梯度,所以一般在一次反向传播之前把梯度清零。
# 再来反向传播一次,注意grad是累加的
out2 = x.sum()
out2.backward()
print(x.grad)
out3 = x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)
为什么在y.backward()时,如果y是标量,则不需要为backward()传入任何参数;否则,需要传入一个与y同形的tensor ?简单来说就是为了避免向量(甚至更高维张量)对张量求导,而转换成标量对张量求导。举个例子,假设形状为 m x n 的矩阵 X 经过运算得到了p*q的矩阵 Y,Y 又经过运算得到了s*t的矩阵 Z。那么按照前面讲的规则,dZ/dY 应该是一个s*t*p*1四维张量,dY/dX 是⼀个p*q*m*n的四维张量。问题来了,怎样反向传播?怎样将两个四维张量相乘???这要怎么乘???就算能 解决两个四维张量怎么乘的问题,四维和三维的张量⼜怎么乘?导数的导数⼜怎么求,这一连串的问题,感觉要疯掉...... 为了避免这个问题,我们不允许张量对张量求导,只允许标量对张量求导,求导结果是和⾃变量同形的张量(张量x的梯度dx和x同维)。所以必要时我们要把张量通过将所有张量的元素加权求和的方式转换为标量,举个例子,假设y由自变量x 计算而来, w是和y同形的张量,则y.backward(w)的含义是:先计算l = torch.sum(y*w),则l是个标量,然后求l对自变量x 的导数/梯度。
x = torch.tensor([1.0,2.0,3.0,4.0],requires_grad=True)
y = 2*x
z = y.view(2,2)
print(z)
现在z不是一个标量,所以在调用backward时,需要传入一个和z同形的权向量进行加权求和得到的一个标量:
v = torch.tensor([[1.0,0.1],[0.01,0.001]],dtype=torch.float)
z.backward(v)
print(x.grad)
注意, x.grad是和x同形的张量。
再来看看中断梯度追踪的例子:
x = torch.tensor(1.0,requires_grad=True)
y1 = x**2
with torch.no_grad():
y2 = x**3
y3 = y1 + y2
print(x.requires_grad)
print(y1,y1.requires_grad)
print(y2,y2.requires_grad)
print(y3,y3.requires_grad)
可以看到,上⾯的y2是没有grad_fn的,而且y2.requires_grad=False。而y3是有grad_fn的,如果我们将y3对x求梯度的话会是多少呢?
y3.backward()
print(x.grad)
为什么是2呢?,当x=1时,
,事实上,由于y2的定义被torch.no_grad():包裹,所以与y2有关的梯度不会回传,只有与y1有关的梯度才会回传,即
对x的梯度。
上⾯提到,y2的requires_grad=False,所以不能调用y2.backward(),会报错:
y2.backward()
如果我们想对tensor进行修改, 又不想被autograd记录(即不影响反向传播),我们可以对tensor.data进行操作:
x = torch.ones(1,requires_grad=True)
print(x.data) #还是一个tensor
print(x.data.requires_grad) #独立与计算图之外
y = 2*x
x.data *= 100 #只是改变了值,不会记录在计算图中,所以不会影响反向传播
y.backward()
print(x) #更改data的值 也会影响tensor的值 只是不被计算图记录
print(x.grad)