上回说道:
Seventeen:PyTorch入门教程(1)zhuanlan.zhihu.com本文对应源码:
https://github.com/SaoYan/Learning_PyTorch/blob/master/exp2_Autograd.pygithub.com微信公众号同步连载:
PyTorch -- 2mp.weixin.qq.com官方文档参考:
https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-pypytorch.org感谢评论区指正,结尾那张图中的求导结果应该是 5*6y*1
Overview
上次教程对比了Tensorflow和PyTorch一些“感官”上的差异,并且遗留了一个问题:在PyTorch中如何计算梯度?
在Tensorflow中我们似乎不需要显式的给计算图求导:
在Tensorflow中,Session同时处理了求导和更新参数两件事情。但是在PyTorch中,我们需要显式执行计算梯度的指令backward()。这次我们讨论几个问题:
1. 对谁求导?
2. 关于谁求导?
3. 可以对非标量求导吗?
Warm-up
我们来实现一个线性模型 z=3*(x+2)^2,当x=1时,求关于x的导数。
在定义输入的时候,我们传入了一个新的参数:requires_grad=True,这意味着,PyTorch会开辟空间为这个Tensor记录梯度信息。这个属性是默认为False的,但是如果在运算表达式中有任何一个Tensor的requires_grad为True,那么计算结果的属性也会默认为True。因此上面代码中,y和z的requires_grad属性都为True。
对z的所有元素求平均作为最终输出,也是求导对象。
在运行这个程序之前,我们来手算一下out关于x的导数:
然后检查一下程序运行结果
和我们预期的一致。下面我们就依据这个例子,讨论最开始提出的三个问题。
对谁求导
我得承认这个问题挺多余的。答案自然是,对调用backward()的那个Tensor求导。在前面的例子中,就是z。
不过需要指出的是:不能对requires_grad为False的Tensor求导。来做一个简单的测试:
开启requires_grad的Tensor对象,除了梯度以外还有一个属性:grad_fn,定义了如何在这个Tensor(也就是计算图中的这个节点出)计算梯度。
关于谁求导
只关于requires_grad为True的Tensor求导,或者说只有开启了这个属性的Tensor才会记录梯度信息,才会被当作求导变量看待。在前面的例子中,x和y都会记录导数信息,分别是dz/dy和dz/dx,其中dz/dy是作为链式法则的中间变脸存储。
请看下面这个例子:
这里,只有x开启了梯度,所以,y就相当于一个常数,z = 5x,对x求导,结果是5(不管x是多少)。
实践中的计算图求导定制
到此为止,我们讨论了文首提出的前两个问题。现在我们对应到实际机器学习程序中:我们通常会计算loss关于全部模型参数的导数,并且不需要关于输入数据计算导数,所以所有的参数都开启了requires_grad,而输入数据则没有。
实际上,对于网络参数,PyTorch定义了一种专门的数据类型:Paramter
这个类型没有什么神秘的,它继承自Tensor类,封装了一个Tensor类型的成员,并且默认开启梯度。例如,如果查看卷基层的源码的话,会发现在一个卷基层对象初始化的时候,就声明了Parameter类型的参数:
在实际中,我们经常会遇到三种情况:模型测试,迁移学习,截断梯度回传。
模型测试:这时候,我们不需要任何导数信息,如果什么都不做自然没问题,但是只要requires_grad为True,PyTorch就会开辟额外内存,这写内存不仅仅是给梯度信息用的,还包括为了计算梯度而存储的所有必需的中间变量,这显然极其浪费内存。所以在测试阶段,代码会这么写
在torh.no_grad()这个作用域下的全部操作,都是完全不需要梯度信息的,也就不会有任何额外的内存浪费。
迁移学习:在迁移学习中,我们可能会“冻结”一部分模型,只训练另一部分(例如冻结全部卷基层,只训练最后的全连接层),这个时候,就需要手动把全部冻结部分的参数设置为requires_grad为False。具体如何进行这个操作会在后面的文章中提及。
截断梯度回传:在GAN的训练中,当对鉴别器计算梯度的时候,我们不希望梯度回传到生成器中。不懂GAN没关系,抽象出来就是:我们有两个模型,G和D,输入数据x(关闭梯度),首先经过G:g = G(x),这个时候,g是开启梯度的(留作思考:为什么?),然后经过D:d = D(g),现在我们要调用d.backward(),但是我们只想更新D的参数,所以不需要梯度回传到G中(因为这会增加很多无用的计算,影响效率)。这个时候,只需要把d = D(g)改成d = D(g.detach())。detach就相当于在计算图中打了一个梯度断点,它不影响前向传播,但是会截断梯度反向传播。
可以对非标量求导吗?
从数学角度,答案应该是否定的。实际上,在PyTorch里,直接对非标量调用backward()也是不允许的,例如,在warm-up的例子中,把z.mean()去掉:
但是如果非要对非标量调用backward(),也是可以的,请看下面这段代码:
运行后输出是:
这是什么意思呢?
当对非标量调用backward的时候,需要一个额外的输入参数,这个参数要和此非标量同维度。z.backward(a)的等价过程是: 首先计算m = torch.sum(z*a),然后计算dm/dx。
总结一下就是:数学上来说不存在对非标量计算梯度,但是在PyTorch里提供了一种实现,可以允许非标量直接调用backward(),但是实质上还是对一个标量在求导。