本文主要参考了pytorch官网:pytroch官网
以及Dvie into deep learning一书Pytorch版的第二章
torch.Tensor
是autograd包的核心类。如果将张量x的属性.requires_grad
设为True
,则它将开始追踪(track)在其上的所有操作(这样就可以利用链式法则进行梯度传播了)。当完成张量x的一系列计算后(此时x已变为y),调用y.backward()
方法就可以自动计算梯度。张量x的梯度会累加到x的.grad
属性中。
注意在
y.backward()
时,如果y是标量,则不需要为backward()
传入任何参数,否则,需要传入一个与y同形的Tensor。原因见遗留问题解释
如果不想被继续追踪,可以调用.detach()
将其从追踪记录中分离,这样就可以防止将来的计算被追踪,这样梯度就穿不过去了。此外,还可以用withtorch.no_grad()
将不想被追踪的操作代码包裹起来,这种方法在评估模型时很有用,因为在评估模型时,我们并不需要计算可训练参数的梯度。
Function
是另外一个很重要的类。Tensor
和Function
相互连接并建立一个无环图,该图对完整的计算历史进行编码。 每个张量都有一个.grad_fn
属性,该属性引用创建了张量的函数(用户创建的张量除外-它们的grad_fn
为None
)。
每一个由运算创建的tensor,都有一个grad_fcn
性,这个属性指向创建这个tensor的Function
的内存地址。注意,由用户自己创建的tensor是没有.grad_fcn
这个属性的。
下面通过一些例子理解这些概念
创建一个Tensor
X,并设置其requires_grad=True
x = torch.ones(2,2, requries_grad = True)
z = (x+2) * (x+2) * 3
out = z.mean()
来看看out
关于x
的梯度d(out)/dx
out.backward()
x.grad
其中out.backward
是out反向求梯度,x.grad
查看梯度计算结果。x.grad
是区别于x
的另一个新的张量,这个张量存储着x
相对于某一个标量(例如out
)的梯度。
tensor([[4.5, 4.5], [4.5, 4.5]])
现在我们解释遗留问题,为什么在y.backward()时,如果y是标量,则不需要为backward()传入任何参数;否则,需要传入一个与y同形的Tensor? 简单来说就是为了避免向量(甚至更高维张量)对张量求导,而转换成标量对张量求导。举个例子,假设形状为 m x n 的矩阵 X 经过运算得到了 p x q 的矩阵 Y,Y 又经过运算得到了 s x t 的矩阵 Z。那么按照前面讲的规则,dZ/dY 应该是一个 s x t x p x q 四维张量,dY/dX 是一个 p x q x m x n的四维张量。问题来了,怎样反向传播?怎样将两个四维张量相乘???这要怎么乘???就算能解决两个四维张量怎么乘的问题,四维和三维的张量又怎么乘?导数的导数又怎么求,这一连串的问题,感觉要疯掉…… 为了避免这个问题,我们不允许张量对张量求导,只允许标量对张量求导,求导结果是和自变量同形的张量。所以必要时我们要把张量通过将所有张量的元素加权求和的方式转换为标量,举个例子,假设y由自变量x计算而来,w是和y同形的张量,则y.backward(w)的含义是:先计算l = torch.sum(y * w),则l是个标量,然后求l对自变量x的导数。
这个不太好输入公式,待续。。。