PyTorch 中 backward() 详解

最新推荐文章于 2024-09-29 21:29:20 发布

寒风呼呼刮

最新推荐文章于 2024-09-29 21:29:20 发布

阅读量1.9k

点赞数 1

分类专栏： Pytorch 文章标签： DeepLearning Pytorch backward

Pytorch 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

转自：Pytorch中文网

接触了PyTorch这么长的时间，也玩了很多PyTorch的骚操作，都特别简单直观地实现了，但是有一个网络训练过程中的操作之前一直没有仔细去考虑过，那就是loss.backward()，看到这个大家一定都很熟悉，loss是网络的损失函数，是一个标量，你可能会说这不就是反向传播吗，有什么好讲的。

但是不知道大家思考过没有，如果loss不是一个标量，而是一个向量，那么loss.backward()是什么结果呢？

大家可以去试试，写一个简单的小程序

import torch as t

from torch.autograd import Variable as v

x = v(t.ones(2, 2), requires_grad=True)

y = x 1

y.backward()

运行一下程序，恭喜你报错了，错误显示如下

我们来读一读这个错误是什么意思。backward只能被应用在一个标量上，也就是一个一维tensor，或者传入跟变量相关的梯度。

嗯，前面一句话很简单，backward应用在一个标量，平时我们也是这么使用的，但是后面一句话，with gradient w.r.t variable是什么鬼，传入一个变量相关的梯度。不理解啊不理解，看不懂没关系我们还可以做实验来解决这个问题，俗话说自己动手丰衣足食（我也想做个伸手党去看看别人写的，然后不幸地是并没有什么人写过这方面的东西）。

首先我们开始做一个简单的实验，就是复习一下标量的形式

# simple gradient

a = v(t.FloatTensor([2, 3]), requires_grad=True)

b = a 3

c = b * b * 3

out = c.mean()

out.backward()

print(\'*\'*10)

print(\'=====simple gradient======\')

print(\'input\')

print(a.data)

print(\'compute result is\')

print(out.data[0])

print(\'input gradients are\')

print(a.grad.data)

很简单，我们把数学表达式写出来，传入的参数x1=2,x2=3

x1=2,x2=3

，特别注意Variable里面默认的参数requires_grad=False，所以这里我们要重新传入requires_grad=True让它成为一个叶子节点。

那么我们对其求偏导也很简单（分别为15,18）这样依靠简单的微积分知识我们就能够算出他们的结果，运行一下程序，确保结果一致，ok。

下面我们研究一下如何能够对非标量的情况下使用backward，下面开始做实验（瞎试）。

m = v(t.FloatTensor([[2, 3]]), requires_grad=True)

n = v(t.zeros(1, 2))

n[0, 0] = m[0, 0] ** 2

n[0, 1] = m[0, 1] ** 3

第一想法就是里面这个参数是要求梯度的对象，我们这样调用n.backward(m.data)，有有报错诶，是不是成功了，我真的是个天才，这么难的东西都能想到，等等，我好想看到了一个很神奇的结果。

这是什么鬼，这跟说好的结果不一样啊，我们想要的结果是4和27,现在给我们的结果是8和81,为什么会出现这样神奇的结果呢，想不通啊。我们看看我们传入的参数是m.data，这是一个(2, 3)的向量，我们希望得到的梯度是(4, 27)，好像(4×2=8, 27×3=81)，我的内心毫无波动，甚至有点想笑，似乎backward将我传入的参数m.data乘上了得到的梯度，既然要乘上我传入的参数，那么我就给你传入1,这样总能得到我想要的结果了吧，n.backward(t.FloatTensor([[1, 1]]))，看看结果呢