pytorch怎么用学习率warming up_PyTorch入门教程(2)

e1223d6b19bf8ec3dd0729ef5cffb36e.png

上回说道:

Seventeen:PyTorch入门教程(1)​zhuanlan.zhihu.com
acaae2cef31e63490eeef0c544481018.png

本文对应源码:

https://github.com/SaoYan/Learning_PyTorch/blob/master/exp2_Autograd.py​github.com

微信公众号同步连载:

PyTorch -- 2​mp.weixin.qq.com
2f24a48869b353daf96a6ad1976e6a13.png

官方文档参考:

https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py​pytorch.org

感谢评论区指正,结尾那张图中的求导结果应该是 5*6y*1


Overview

上次教程对比了Tensorflow和PyTorch一些“感官”上的差异,并且遗留了一个问题:在PyTorch中如何计算梯度?

在Tensorflow中我们似乎不需要显式的给计算图求导:

4a6f0cede3e400b8239811fa4a548944.png

4231b110ba46b21d03727d77a9c88efb.png

在Tensorflow中,Session同时处理了求导和更新参数两件事情。但是在PyTorch中,我们需要显式执行计算梯度的指令backward()。这次我们讨论几个问题:

1. 对谁求导?

2. 关于谁求导?

3. 可以对非标量求导吗?


Warm-up

我们来实现一个线性模型 z=3*(x+2)^2,当x=1时,求关于x的导数。

17193a60bed2a662e068301cb22df583.png

在定义输入的时候,我们传入了一个新的参数:requires_grad=True,这意味着,PyTorch会开辟空间为这个Tensor记录梯度信息。这个属性是默认为False的,但是如果在运算表达式中有任何一个Tensor的requires_grad为True,那么计算结果的属性也会默认为True。因此上面代码中,y和z的requires_grad属性都为True。

对z的所有元素求平均作为最终输出,也是求导对象。

在运行这个程序之前,我们来手算一下out关于x的导数:

f466eed2af415b05f362afe37efb4000.png

然后检查一下程序运行结果

9a9abd1e1fda1040f315c2f1279cf3a5.png

和我们预期的一致。下面我们就依据这个例子,讨论最开始提出的三个问题。


对谁求导

我得承认这个问题挺多余的。答案自然是,对调用backward()的那个Tensor求导。在前面的例子中,就是z。

不过需要指出的是:不能对requires_grad为False的Tensor求导。来做一个简单的测试:

45aa9ae57b5cd9b5a66e797ed007c59b.png

开启requires_grad的Tensor对象,除了梯度以外还有一个属性:grad_fn,定义了如何在这个Tensor(也就是计算图中的这个节点出)计算梯度。


关于谁求导

只关于requires_grad为True的Tensor求导,或者说只有开启了这个属性的Tensor才会记录梯度信息,才会被当作求导变量看待。在前面的例子中,x和y都会记录导数信息,分别是dz/dy和dz/dx,其中dz/dy是作为链式法则的中间变脸存储。

请看下面这个例子:

71d6576d8a10a00c5f8ac8663d7bf790.png

这里,只有x开启了梯度,所以,y就相当于一个常数,z = 5x,对x求导,结果是5(不管x是多少)。


实践中的计算图求导定制

到此为止,我们讨论了文首提出的前两个问题。现在我们对应到实际机器学习程序中:我们通常会计算loss关于全部模型参数的导数,并且不需要关于输入数据计算导数,所以所有的参数都开启了requires_grad,而输入数据则没有。

实际上,对于网络参数,PyTorch定义了一种专门的数据类型:Paramter

dc7137c692304303e335102d4897dc04.png

这个类型没有什么神秘的,它继承自Tensor类,封装了一个Tensor类型的成员,并且默认开启梯度。例如,如果查看卷基层的源码的话,会发现在一个卷基层对象初始化的时候,就声明了Parameter类型的参数:

ce2efcc3caf1c18cf0a9de8033646721.png

在实际中,我们经常会遇到三种情况:模型测试,迁移学习,截断梯度回传。

模型测试:这时候,我们不需要任何导数信息,如果什么都不做自然没问题,但是只要requires_grad为True,PyTorch就会开辟额外内存,这写内存不仅仅是给梯度信息用的,还包括为了计算梯度而存储的所有必需的中间变量,这显然极其浪费内存。所以在测试阶段,代码会这么写

05651127388f55e28e383aa517b7c02f.png

在torh.no_grad()这个作用域下的全部操作,都是完全不需要梯度信息的,也就不会有任何额外的内存浪费。

迁移学习:在迁移学习中,我们可能会“冻结”一部分模型,只训练另一部分(例如冻结全部卷基层,只训练最后的全连接层),这个时候,就需要手动把全部冻结部分的参数设置为requires_grad为False。具体如何进行这个操作会在后面的文章中提及。

截断梯度回传:在GAN的训练中,当对鉴别器计算梯度的时候,我们不希望梯度回传到生成器中。不懂GAN没关系,抽象出来就是:我们有两个模型,G和D,输入数据x(关闭梯度),首先经过G:g = G(x),这个时候,g是开启梯度的(留作思考:为什么?),然后经过D:d = D(g),现在我们要调用d.backward(),但是我们只想更新D的参数,所以不需要梯度回传到G中(因为这会增加很多无用的计算,影响效率)。这个时候,只需要把d = D(g)改成d = D(g.detach())。detach就相当于在计算图中打了一个梯度断点,它不影响前向传播,但是会截断梯度反向传播。


可以对非标量求导吗?

从数学角度,答案应该是否定的。实际上,在PyTorch里,直接对非标量调用backward()也是不允许的,例如,在warm-up的例子中,把z.mean()去掉:

027dbf820717c0548ab2905fb0973db6.png

但是如果非要对非标量调用backward(),也是可以的,请看下面这段代码:

c6e5fce5889fea4f51f9fd38500d3e82.png

运行后输出是:

bb87131f0f58e180a3acbc2b5d4a6f30.png

这是什么意思呢?

当对非标量调用backward的时候,需要一个额外的输入参数,这个参数要和此非标量同维度。z.backward(a)的等价过程是: 首先计算m = torch.sum(z*a),然后计算dm/dx

38a2d3f73b8cf3f56dab92105eb2b73d.png

总结一下就是:数学上来说不存在对非标量计算梯度,但是在PyTorch里提供了一种实现,可以允许非标量直接调用backward(),但是实质上还是对一个标量在求导。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值