pytorch怎么用学习率warming up_PyTorch入门教程（2）

最新推荐文章于 2023-12-05 22:59:50 发布

weixin_39775910

最新推荐文章于 2023-12-05 22:59:50 发布

阅读量372

点赞数

文章标签： pytorch怎么用学习率warming up

上回说道：

Seventeen：PyTorch入门教程（1）zhuanlan.zhihu.com

本文对应源码：

https://github.com/SaoYan/Learning_PyTorch/blob/master/exp2_Autograd.pygithub.com

微信公众号同步连载：

PyTorch -- 2mp.weixin.qq.com

官方文档参考：

https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-pypytorch.org

感谢评论区指正，结尾那张图中的求导结果应该是 5*6y*1

Overview

上次教程对比了Tensorflow和PyTorch一些“感官”上的差异，并且遗留了一个问题：在PyTorch中如何计算梯度？

在Tensorflow中我们似乎不需要显式的给计算图求导：

在Tensorflow中，Session同时处理了求导和更新参数两件事情。但是在PyTorch中，我们需要显式执行计算梯度的指令backward()。这次我们讨论几个问题：

1. 对谁求导？

2. 关于谁求导？

3. 可以对非标量求导吗？

Warm-up

我们来实现一个线性模型 z=3*(x+2)^2，当x=1时，求关于x的导数。

在定义输入的时候，我们传入了一个新的参数：requires_grad=True，这意味着，PyTorch会开辟空间为这个Tensor记录梯度信息。这个属性是默认为False的，但是如果在运算表达式中有任何一个Tensor的requires_grad为True，那么计算结果的属性也会默认为True。因此上面代码中，y和z的requires_grad属性都为True。

对z的所有元素求平均作为最终输出，也是求导对象。

在运行这个程序之前，我们来手算一下out关于x的导数：

然后检查一下程序运行结果

和我们预期的一致。下面我们就依据这个例子，讨论最开始提出的三个问题。

对谁求导

我得承认这个问题挺多余的。答案自然是，对调用backward()的那个Tensor求导。在前面的例子中，就是z。

不过需要指出的是：不能对requires_grad为False的Tensor求导。来做一个简单的测试：

开启requires_grad的Tensor对象，除了梯度以外还有一个属性：grad_fn，定义了如何在这个Tensor（也就是计算图中的这个节点出）计算梯度。

关于谁求导

只关于requires_grad为True的Tensor求导，或者说只有开启了这个属性的Tensor才会记录梯度信息，才会被当作求导变量看待。在前面的例子中，x和y都会记录导数信息，分别是dz/dy和dz/dx，其中dz/dy是作为链式法则的中间变脸存储。

请看下面这个例子：

这里，只有x开启了梯度，所以，y就相当于一个常数，z = 5x，对x求导，结果是5（不管x是多少）。

实践中的计算图求导定制

到此为止，我们讨论了文首提出的前两个问题。现在我们对应到实际机器学习程序中：我们通常会计算loss关于全部模型参数的导数，并且不需要关于输入数据计算导数，所以所有的参数都开启了requires_grad，而输入数据则没有。

实际上，对于网络参数，PyTorch定义了一种专门的数据类型：Paramter

这个类型没有什么神秘的，它继承自Tensor类，封装了一个Tensor类型的成员，并且默认开启梯度。例如，如果查看卷基层的源码的话，会发现在一个卷基层对象初始化的时候，就声明了Parameter类型的参数：

在实际中，我们经常会遇到三种情况：模型测试，迁移学习，截断梯度回传。

模型测试：这时候，我们不需要任何导数信息，如果什么都不做自然没问题，但是只要requires_grad为True，PyTorch就会开辟额外内存，这写内存不仅仅是给梯度信息用的，还包括为了计算梯度而存储的所有必需的中间变量，这显然极其浪费内存。所以在测试阶段，代码会这么写

在torh.no_grad()这个作用域下的全部操作，都是完全不需要梯度信息的，也就不会有任何额外的内存浪费。

迁移学习：在迁移学习中，我们可能会“冻结”一部分模型，只训练另一部分（例如冻结全部卷基层，只训练最后的全连接层），这个时候，就需要手动把全部冻结部分的参数设置为requires_grad为False。具体如何进行这个操作会在后面的文章中提及。

截断梯度回传：在GAN的训练中，当对鉴别器计算梯度的时候，我们不希望梯度回传到生成器中。不懂GAN没关系，抽象出来就是：我们有两个模型，G和D，输入数据x（关闭梯度），首先经过G：g = G(x)，这个时候，g是开启梯度的(留作思考：为什么？)，然后经过D：d = D(g)，现在我们要调用d.backward()，但是我们只想更新D的参数，所以不需要梯度回传到G中（因为这会增加很多无用的计算，影响效率）。这个时候，只需要把d = D(g)改成d = D(g.detach())。detach就相当于在计算图中打了一个梯度断点，它不影响前向传播，但是会截断梯度反向传播。

可以对非标量求导吗？

从数学角度，答案应该是否定的。实际上，在PyTorch里，直接对非标量调用backward()也是不允许的,例如，在warm-up的例子中，把z.mean()去掉：

但是如果非要对非标量调用backward()，也是可以的，请看下面这段代码：

运行后输出是：

这是什么意思呢？

当对非标量调用backward的时候，需要一个额外的输入参数，这个参数要和此非标量同维度。z.backward(a)的等价过程是： 首先计算m = torch.sum(z*a)，然后计算dm/dx。

总结一下就是：数学上来说不存在对非标量计算梯度，但是在PyTorch里提供了一种实现，可以允许非标量直接调用backward()，但是实质上还是对一个标量在求导。

weixin_39775910

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pytorch怎么用学习率warming up_PyTorch入门教程（2）

上回说道：Seventeen：PyTorch入门教程（1）zhuanlan.zhihu.com本文对应源码：https://github.com/SaoYan/Learning_PyTorch/blob/master/exp2_Autograd.pygithub.com微信公众号同步连载：PyTorch -- 2mp.weixin.qq.com官方文档参考：https://pytorch.o...
复制链接

扫一扫