理解pytorch中的autograd包

本文主要参考了pytorch官网:pytroch官网
以及Dvie into deep learning一书Pytorch版的第二章
torch.Tensor是autograd包的核心类。如果将张量x的属性.requires_grad设为True,则它将开始追踪(track)在其上的所有操作(这样就可以利用链式法则进行梯度传播了)。当完成张量x的一系列计算后(此时x已变为y),调用y.backward()方法就可以自动计算梯度。张量x的梯度会累加到x的.grad属性中。

注意在y.backward()时,如果y是标量,则不需要为backward()传入任何参数,否则,需要传入一个与y同形的Tensor。原因见遗留问题解释

如果不想被继续追踪,可以调用.detach()将其从追踪记录中分离,这样就可以防止将来的计算被追踪,这样梯度就穿不过去了。此外,还可以用withtorch.no_grad()将不想被追踪的操作代码包裹起来,这种方法在评估模型时很有用,因为在评估模型时,我们并不需要计算可训练参数的梯度。
Function是另外一个很重要的类。TensorFunction相互连接并建立一个无环图,该图对完整的计算历史进行编码。 每个张量都有一个.grad_fn属性,该属性引用创建了张量的函数(用户创建的张量除外-它们的grad_fnNone)。

每一个由运算创建的tensor,都有一个grad_fcn性,这个属性指向创建这个tensor的Function的内存地址。注意,由用户自己创建的tensor是没有.grad_fcn这个属性的。

下面通过一些例子理解这些概念
创建一个Tensor X,并设置其requires_grad=True

x = torch.ones(2,2, requries_grad = True)
z = (x+2) * (x+2) * 3
out = z.mean()

来看看out关于x的梯度d(out)/dx

out.backward()
x.grad

其中out.backward是out反向求梯度,x.grad查看梯度计算结果。x.grad是区别于x的另一个新的张量,这个张量存储着x相对于某一个标量(例如out)的梯度。

tensor([[4.5, 4.5], [4.5, 4.5]])

现在我们解释遗留问题,为什么在y.backward()时,如果y是标量,则不需要为backward()传入任何参数;否则,需要传入一个与y同形的Tensor? 简单来说就是为了避免向量(甚至更高维张量)对张量求导,而转换成标量对张量求导。举个例子,假设形状为 m x n 的矩阵 X 经过运算得到了 p x q 的矩阵 Y,Y 又经过运算得到了 s x t 的矩阵 Z。那么按照前面讲的规则,dZ/dY 应该是一个 s x t x p x q 四维张量,dY/dX 是一个 p x q x m x n的四维张量。问题来了,怎样反向传播?怎样将两个四维张量相乘???这要怎么乘???就算能解决两个四维张量怎么乘的问题,四维和三维的张量又怎么乘?导数的导数又怎么求,这一连串的问题,感觉要疯掉…… 为了避免这个问题,我们不允许张量对张量求导,只允许标量对张量求导,求导结果是和自变量同形的张量。所以必要时我们要把张量通过将所有张量的元素加权求和的方式转换为标量,举个例子,假设y由自变量x计算而来,w是和y同形的张量,则y.backward(w)的含义是:先计算l = torch.sum(y * w),则l是个标量,然后求l对自变量x的导数。

这个不太好输入公式,待续。。。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值