用Tensor训练网络很方便,但从上篇博客最后的线性回归例子来看,反向传播过程需要自己手动实现。这对于像线性回归等较为简单的模型来说,还可以应付,但实际使用中经常出现非常复杂的网络结构,此时如果手动实现反向传播,不仅费时费力,而且容易出错,难以检查。torch.autograd就是为方便用户使用,而专门开发的一套自动求导引擎,它能够根据输入和前向传播过程自动构建计算图,并执行反向传播。
计算图(Computation Graph)是现代深度学习框架如PyTorch和TensorFlow等的核心,其为高效自动求导算法——反向传播(Back Propogation)提供了理论支持,了解计算图在实际写程序过程中会有极大的帮助。本节将涉及一些基础的计算图知识,但并不要求大家事先对此有深入的了解。关于计算图的基础知识推荐阅读Christopher Olah的文章http://colah.github.io/posts/2015-08-Backprop/↩。
目录
1. requires_grad
PyTorch在autograd模块中实现了计算图的相关功能,autograd中的核心数据结构是Variable。从v0.4版本起,Variable和Tensor合并。我们可以认为需要求导(requires_grad=True)的tensor即为Variable. autograd记录对tensor的操作记录用来构建计算图。
Variable提供了大部分tensor支持的函数,但其不支持部分inplace
函数,因这些函数会修改tensor自身,而在反向传播中,variable需要缓存原来的tensor来计算反向传播梯度。如果想要计算各个Variable的梯度,只需调用根节点variable的backward
方法,autograd会自动沿着计算图反向传播,计算每一个叶子节点的梯度。
from __future__ import print_function
import torch
#在创建tensor的时候指定requires_grad
a = torch.randn(3,4, requires_grad=True)
# 或者
a = torch.randn(3,4).requires_grad_()
# 或者
a = torch.randn(3,4)
a.requires_grad=True
a
b = torch.zeros(3,4).requires_grad_()
print(b)
c = a.add(b) #c = a + b
print(c)
d = c.sum()
d.backward()# 反向传播
print(d) # d还是一个requires_grad=True的tensor,对它的操作需要慎重
print(d.requires_grad)
print(a.grad)
# 此处虽然没有指定c需要求导,但c依赖于a,而a需要求导,
# 因此c的requires_grad属性会自动设为True
print(a.requires_grad, b.requires_grad, c.requires_grad)
# 由用户创建的variable a,b属于叶子节点,对应的grad_fn是None;c不是叶子节点 grad_fn不是None
print(a.is_leaf, b.is_leaf, c.is_leaf)
# c.grad是None, 因c不是叶子节点,它的梯度是用来计算a的梯度
# 所以虽然c.requires_grad = True,但其梯度计算完之后即被释放
c.grad is None
def f(x):
y = x**2 * torch.exp(x)
return y
def gradf(x):
#手动求导函数
dx = 2*x*torch.exp(x)+x**2*torch.exp(x)
return dx
x = torch.randn(3,4, requires_grad = True)
y = f(x)
print(y)
y.backward(torch.ones(y.size())) #gradient的形状与y一致 神经网络中loss.backward()不需要参数 是因为loss是一个数值 dloss默认为1省略
#y是一个2维tensor 所以需要传入dy 形状与y一致 值全为1
print(x.grad)
#autograd的计算结果与利用公式手动计算的结果一致
print(gradf(x))
2. 计算图
PyTorch中autograd
的底层采用了计算图,计算图是一种特殊的有向无环图(DAG),用于记录算子与变量之间的关系。一般用矩形表示算子,椭圆形表示变量。如表达式z=wx+b可分解为y=wx和z=y+b,其计算图如下所示,图中MUL
,ADD
都是算子,w,x,b即变量。
如上有向无环图中,x和b是叶子节点(leaf node),这些节点通常由用户自己创建,不依赖于其他变量。z称为根节点,是计算图的最终目标。利用链式法则很容易求得各个叶子节点的梯度。
而有了计算图,上述链式求导即可利用计算图的反向传播自动完成,其过程如下图所示:
在PyTorch实现中,autograd会随着用户的操作,记录生成当前variable的所有操作,并由此建立一个有向无环图。用户每进行一个操作,相应的计算图就会发生改变。更底层的实现中,图中记录了操作Function
,每一个变量在图中的位置可通过其grad_fn
属性在图中的位置推测得到。在反向传播过程中,autograd沿着这个图从当前变量(根节点z)溯源,可以利用链式求导法则计算所有叶子节点的梯度。每一个前向传播操作的函数都有与之对应的反向传播函数用来计算输入的各个variable的梯度,这些函数的函数名通常以Backward
结尾。下面结合代码学习autograd的实现细节。
x = torch.ones(1)
b = torch.rand(1, requires_grad = True)
w = torch.rand(1, requires_grad = True)
y = w * x # 等价于y=w.mul(x) y = torch.mul(w,x)
z = y + b # 等价于z=y.add(b) y = torch.add(y,b)
print(x.requires_grad, b.requires_grad, w.requires_grad)
# 虽然未指定y.requires_grad为True,但由于y依赖于需要求导的w
# 故而y.requires_grad为True
print(y.requires_grad)
print(x.is_leaf, w.is_leaf, b.is_leaf)
print(y.is_leaf, z.is_leaf)
# grad_fn可以查看这个variable的反向传播函数,
# z是add函数的输出,所以它的反向传播函数是AddBackward
print(z.grad_fn)
# next_functions保存grad_fn的输入,是一个tuple,tuple的元素也是Function
# 第一个是y,它是乘法(mul)的输出,所以对应的反向传播函数y.grad_fn是MulBackward
# 第二个是b,它是叶子节点,由用户创建,grad_fn为None,但是需要计算梯度 梯度是累加的
print(z.grad_fn.next_functions)
# variable的grad_fn对应着和图中的function相对应
print(z.grad_fn.next_functions[0][0] == y.grad_fn)
# 第一个是w,叶子节点,需要求导,梯度是累加的
# 第二个是x,叶子节点,不需要求导,所以为None
print(y.grad_fn.next_functions)
# 叶子节点的grad_fn是None
print(w.grad_fn,x.grad_fn,b.grad_fn)
计算w的梯度的时候,需要用到x的数值(),这些数值在前向过程中会保存成buffer,在计算完梯度之后会自动清空。为了能够多次反向传播需要指定
retain_graph
来保留这些buffer。
# 使用retain_graph来保存buffer
z.backward(retain_graph=True)
print(w.grad)
# 多次反向传播,梯度累加,这也就是w中AccumulateGrad标识的含义
z.backward()
print(w.grad)
PyTorch使用的是动态图,它的计算图在每次前向传播时都是从头开始构建,所以它能够使用Python控制语句(如for、if等)根据需求创建计算图。这点在自然语言处理领域中很有用,它意味着你不需要事先构建所有可能用到的图的路径,图在运行时才构建。
def abs(x):
if x.data[0]>0: return x
else: return -x
x = torch.ones(1,requires_grad=True)
y = abs(x)
y.backward()
print(x.grad)
x = -1*torch.ones(1)
x = x.requires_grad_()
y = abs(x)
y.backward()
print(x.grad)
def f(x):
result = 1
for ii in x:
if ii.item()>0: result=ii*result
return result
x = torch.arange(-2,4,dtype=torch.float32,requires_grad=True)#只有float类型才有requires_grad=True
y = f(x) # y = x[3]*x[4]*x[5]
print(y)
#y.backward(torch.ones(y.size()))
y.backward() #不传入参数也可以 因为y是一个数值或包含一个元素的tensor 传入1可以省略
x.grad
变量的requires_grad
属性默认为False,如果某一个节点requires_grad被设置为True,那么所有依赖它的节点requires_grad
都是True。这其实很好理解,对于x->y->z,x.requires_grad = True,当需要计算时,根据链式法则
,自然需要求
,所以y.requires_grad会被自动标为True。
有些时候我们可能不希望autograd对tensor求导。认为求导需要缓存许多中间结构,增加额外的内存/显存开销,那么我们可以关闭自动求导。对于不需要反向传播的情景(如inference,即测试推理时),关闭自动求导可实现一定程度的速度提升,并节省约一半显存,因其不需要分配空间计算梯度。
x = torch.ones(1, requires_grad=True)
w = torch.rand(1, requires_grad=True)
y = x * w
# y依赖于w,而w.requires_grad = True
x.requires_grad, w.requires_grad, y.requires_grad
with torch.no_grad(): #关闭自动求导
x = torch.ones(1)
w = torch.rand(1, requires_grad = True)
y = x * w
# y依赖于w和x,虽然w.requires_grad = True,但是y的requires_grad依旧为False
x.requires_grad, w.requires_grad, y.requires_grad
torch.set_grad_enabled(False)
x = torch.ones(1)
w = torch.rand(1, requires_grad = True)
y = x * w
# y依赖于w和x,虽然w.requires_grad = True,但是y的requires_grad依旧为False
print(x.requires_grad, w.requires_grad, y.requires_grad)
# 恢复默认配置
torch.set_grad_enabled(True)
如果我们想要修改tensor的数值,但是又不希望被autograd记录,那么我么可以对tensor.data进行操作
a = torch.ones(3,4,requires_grad=True)
b = torch.ones(3,4,requires_grad=True)
c = a * b
print(a)
print(a.data) # 还是一个tensor 对其修改不会被计算图记录 直接对a修改会被记录
print(a.data.requires_grad) #独立于计算图之外
d = a.data.sigmoid_() # sigmoid_ 是个inplace操作,会修改a自身的值
print(d.requires_grad)
print(a) #此时a的值修改了 但没有被计算图记录
如果我们希望对tensor做处理,但是又不希望被记录, 可以使用tensor.data 或者tensor.detach()
print(a)
print(a.requires_grad)
# 近似于 tensor=a.data, 但是如果tensor被修改,backward可能会报错
tensor = a.detach()
print(tensor.requires_grad)
# 统计tensor的一些指标,不希望被记录
mean = tensor.mean()
std = tensor.std()
maximum = tensor.max()
tensor[0]=1
# 下面会报错: RuntimeError: one of the variables needed for gradient
# computation has been modified by an inplace operation
# 因为 c=a*b, b的梯度取决于a,现在修改了tensor,其实也就是修改了a,梯度不再准确
c.sum().backward()
在反向传播过程中非叶子节点的导数计算完之后即被清空。若想查看这些变量的梯度,有两种方法:
1) 使用autograd.grad函数
2) 使用hook
autograd.grad
和hook
方法都是很强大的工具,更详细的用法参考官方api文档,这里举例说明基础的使用。推荐使用hook
方法,但是在实际使用中应尽量避免修改grad的值。
x = torch.ones(3, requires_grad=True)
w = torch.rand(3, requires_grad=True)
y = x * w
# y依赖于w,而w.requires_grad = True
z = y.sum()
x.requires_grad, w.requires_grad, y.requires_grad
# 非叶子节点grad计算完之后自动清空,y.grad是None
z.backward()
print(w.is_leaf,x.is_leaf,y.is_leaf)
(x.grad, w.grad, y.grad)
# 第一种方法:使用grad获取中间变量的梯度
x = torch.ones(3, requires_grad=True)
w = torch.rand(3, requires_grad=True)
y = x * w
z = y.sum()
# z对y的梯度,隐式调用backward()
torch.autograd.grad(z, y)
# 第二种方法:使用hook
# hook是一个函数,输入是梯度,不应该有返回值
def variable_hook(grad):
print('y的梯度:',grad)
x = torch.ones(3, requires_grad=True)
w = torch.rand(3, requires_grad=True)
y = x * w
# 注册hook
hook_handle = y.register_hook(variable_hook)
z = y.sum()
z.backward()
# 除非你每次都要用hook,否则用完之后记得移除hook
hook_handle.remove()
最后再来看看variable中grad属性和backward函数grad_variables
参数的含义,这里直接下结论:
x = torch.arange(0,3,dtype=torch.float32,requires_grad=True)
y = x**2 + x*2
z = y.sum()
z.backward() # 从z开始反向传播 z是一个数值或包含一个元素的tensor dz=1参数可以省略
x.grad
x = torch.arange(0,3, dtype=torch.float32,requires_grad=True)
y = x**2 + x*2
z = y.sum()
y_gradient = torch.Tensor([1,1,1]) # dz/dy torch.ones(y.size())
y.backward(y_gradient) #从y开始反向传播 y是一个一维tensor 参数需要传入dy
#dy与y形状一致 值为根结点z对y的偏导数
#y.backward(torch.ones(y.size()))
x.grad
另外值得注意的是,只有对variable的操作才能使用autograd,如果对variable的data直接进行操作,将无法使用反向传播。除了对参数初始化,一般我们不会修改variable.data的值。
在PyTorch中计算图的特点可总结如下:
1) autograd根据用户对variable的操作构建其计算图。对变量的操作抽象为Function
。
2) 对于那些不是任何函数(Function)的输出,由用户创建的节点称为叶子节点,叶子节点的grad_fn
为None。叶子节点中需要求导的variable(如模型参数),具有AccumulateGrad
标识,因其梯度是累加的。
3)variable默认是不需要求导的,即requires_grad
属性默认为False,如果某一个节点requires_grad被设置为True,那么所有依赖它的节点requires_grad
都为True。
4)variable的volatile
属性默认为False,如果某一个variable的volatile
属性被设为True,那么所有依赖它的节点volatile
属性都为True。volatile属性为True的节点不会求导,volatile的优先级比requires_grad
高。
5) 多次反向传播时,梯度是累加的。反向传播的中间缓存会被清空,为进行多次反向传播需指定retain_graph
=True来保存这些缓存。
6)非叶子节点的梯度计算完之后即被清空,可以使用autograd.grad
或hook
技术获取非叶子节点的值。
7)variable的grad与data形状一致,应避免直接修改variable.data,因为对data的直接操作无法利用autograd进行反向传播
8)反向传播函数backward
的参数grad_variables
可以看成链式求导的中间结果,如果是标量,可以省略,默认为1
9)PyTorch采用动态图设计,可以很方便地查看中间层的输出,动态的设计计算图结构。
这些知识不懂大多数情况下也不会影响对pytorch的使用,但是掌握这些知识有助于更好的理解pytorch,并有效的避开很多陷阱。
3. 扩展autograd
目前绝大多数函数都可以使用autograd
实现反向求导,但如果需要自己写一个复杂的函数,不支持自动反向求导怎么办? 写一个Function
,实现它的前向传播和反向传播代码,Function
对应于计算图中的矩形, 它接收参数,计算并返回结果。下面给出一个例子。
分析如下:
1)自定义的Function需要继承autograd.Function,没有构造函数__init__
,forward和backward函数都是静态方法
2)backward函数的输出和forward函数的输入一一对应,backward函数的输入和forward函数的输出一一对应
3)backward函数的grad_output参数即torch.autograd.backward中的grad_variables
4)如果某一个输入不需要求导,直接返回None,如forward中的输入参数x_requires_grad显然无法对它求导,直接返回None即可
5)反向传播可能需要利用前向传播的某些中间结果,需要进行保存,否则前向传播结束后这些对象即被释放
Function的使用利用Function.apply(variable)
from torch.autograd import Function
class MultiplyAdd(Function):
@staticmethod
def forward(ctx, w, x, b):
ctx.save_for_backward(w,x) #为反向传播保存中间结果
output = w * x + b
return output
@staticmethod
def backward(ctx, grad_output):
w,x = ctx.saved_tensors
grad_w = grad_output * x
grad_x = grad_output * w
grad_b = grad_output * 1
return grad_w, grad_x, grad_b
x = torch.ones(1)
w = torch.rand(1, requires_grad = True)
b = torch.rand(1, requires_grad = True)
# 开始前向传播
z=MultiplyAdd.apply(w, x, b)
# 开始反向传播
z.backward()
# x不需要求导,中间过程还是会计算它的导数,但随后被清空
x.grad, w.grad, b.grad
x = torch.ones(1)
w = torch.rand(1, requires_grad = True)
b = torch.rand(1, requires_grad = True)
#print('开始前向传播')
z=MultiplyAdd.apply(w,x,b)
#print('开始反向传播')
# 调用MultiplyAdd.backward
# 输出grad_w, grad_x, grad_b
z.grad_fn.apply(torch.ones(1))
之所以forward函数的输入是tensor,而backward函数的输入是variable,是为了实现高阶求导。backward函数的输入输出虽然是variable,但在实际使用时autograd.Function会将输入variable提取为tensor,并将计算结果的tensor封装成variable返回。在backward函数中,之所以也要对variable进行操作,是为了能够计算梯度的梯度(backward of backward)。下面举例说明,有关torch.autograd.grad的更详细使用请参照文档。.
x = torch.tensor([5.], requires_grad=True)
y = x ** 2
grad_x = torch.autograd.grad(y, x, create_graph=True)
grad_x # dy/dx = 2 * x
grad_grad_x = torch.autograd.grad(grad_x[0],x)
grad_grad_x # 二阶导数 d(2x)/dx = 2
这种设计虽然能让autograd
具有高阶求导功能,但其也限制了Tensor的使用,因autograd中反向传播的函数只能利用当前已经有的Variable操作。这个设计是在0.2
版本新加入的,为了更好的灵活性,也为了兼容旧版本的代码,PyTorch还提供了另外一种扩展autograd的方法。PyTorch提供了一个装饰器@once_differentiable
,能够在backward函数中自动将输入的variable提取成tensor,把计算结果的tensor自动封装成variable。有了这个特性我们就能够很方便的使用numpy/scipy中的函数,操作不再局限于variable所支持的操作。但是这种做法正如名字中所暗示的那样只能求导一次,它打断了反向传播图,不再支持高阶求导。
上面所描述的都是新式Function,还有个legacy Function,可以带有__init__
方法,forward
和backwad
函数也不需要声明为@staticmethod
,但随着版本更迭,此类Function将越来越少遇到,在此不做更多介绍。
此外在实现了自己的Function之后,还可以使用gradcheck
函数来检测实现是否正确。gradcheck
通过数值逼近来计算梯度,可能具有一定的误差,通过控制eps
的大小可以控制容忍的误差。 关于这部份的内容可以参考github上开发者们的讨论https://github.com/pytorch/pytorch/pull/1016↩。
下面举例说明如何利用Function实现sigmoid Function。
class Sigmoid(Function):
@staticmethod
def forward(ctx, x):
output = 1 / (1 + torch.exp(-x))
ctx.save_for_backward(output)
return output
@staticmethod
def backward(ctx, grad_output):
output, = ctx.saved_tensors
grad_x = output * (1 - output) * grad_output
return grad_x
# 采用数值逼近方式检验计算梯度的公式对不对
test_input = torch.randn(3,4, requires_grad=True)
torch.autograd.gradcheck(Sigmoid.apply, (test_input,), eps=1e-3)
def f_sigmoid(x):
y = Sigmoid.apply(x)
y.backward(torch.ones(x.size()))
def f_naive(x):
y = 1/(1 + torch.exp(-x))
y.backward(torch.ones(x.size()))
def f_th(x):
y = torch.sigmoid(x)
y.backward(torch.ones(x.size()))
x=torch.randn(100, 100, requires_grad=True)
%timeit -n 100 f_sigmoid(x)
%timeit -n 100 f_naive(x)
%timeit -n 100 f_th(x)
显然f_sigmoid
要比单纯利用autograd
加减和乘方操作实现的函数快不少,因为f_sigmoid的backward优化了反向传播的过程。另外可以看出系统实现的built-in接口(t.sigmoid)更快。
4. 用variable实现线性回归
在上一节中讲解了利用tensor实现线性回归,在这一小节中,将讲解如何利用autograd/Variable实现线性回归,以此感受autograd的便捷之处。
import torch
%matplotlib inline
from matplotlib import pyplot as plt
from IPython import display
import numpy as np
# 设置随机数种子,为了在不同人电脑上运行时下面的输出一致
torch.manual_seed(1000)
def get_fake_data(batch_size=8):
''' 产生随机数据:y = x*2 + 3,加上了一些噪声'''
x = torch.rand(batch_size,1) * 5
y = x * 2 + 3 + torch.randn(batch_size, 1)
return x, y
# 来看看产生x-y分布是什么样的
x, y = get_fake_data()
plt.scatter(x.squeeze().numpy(), y.squeeze().numpy())
# 随机初始化参数
w = torch.rand(1,1, requires_grad=True)
b = torch.zeros(1,1, requires_grad=True)
losses = np.zeros(500)
lr =0.005 # 学习率
for ii in range(500):
x, y = get_fake_data(batch_size=32)
# forward:计算loss
y_pred = x.mm(w) + b.expand_as(y)
loss = 0.5 * (y_pred - y) ** 2
loss = loss.sum()
losses[ii] = loss.item()
# backward:自动计算梯度
loss.backward()
# 更新参数 修改tensor但不被autograd记录 可以使用.data
w.data.sub_(lr * w.grad.data)
b.data.sub_(lr * b.grad.data)
# 梯度清零
w.grad.data.zero_()
b.grad.data.zero_()
if ii%50 ==0:
# 画图
display.clear_output(wait=True)
x = torch.arange(0, 6,dtype=torch.float32).view(-1, 1)
y = x.mm(w.data) + b.data.expand_as(x)
plt.plot(x.numpy(), y.numpy()) # predicted
x2, y2 = get_fake_data(batch_size=20)
plt.scatter(x2.numpy(), y2.numpy()) # true data
plt.xlim(0,5)
plt.ylim(0,13)
plt.show()
plt.pause(0.5)
print(w.item(), b.item())
plt.plot(losses) #可视化loss 500个batch
plt.ylim(5,50) #限制y范围
用autograd实现的线性回归最大的不同点就在于autograd不需要手动计算反向传播,可以自动计算微分。这点不单是在深度学习,在许多机器学习的问题中都很有用。另外需要注意的是在每次反向传播之前要记得先把梯度清零,否则会累加上次的梯度。
本章主要介绍了PyTorch中两个基础底层的数据结构:Tensor和autograd中的Variable。Tensor是一个类似Numpy数组的高效多维数值运算数据结构,有着和Numpy相类似的接口,并提供简单易用的GPU加速。Variable是autograd封装了Tensor并提供自动求导技术的,具有和Tensor几乎一样的接口。autograd
是PyTorch的自动微分引擎,采用动态计算图技术,能够快速高效的计算导数。