Pytorch学习记录（二）：关于Gradient

最新推荐文章于 2024-07-10 14:34:52 发布

Never-Giveup

最新推荐文章于 2024-07-10 14:34:52 发布

阅读量633

点赞数

分类专栏： Pytorch框架文章标签：机器学习 Pytorch框架求导

本文链接：https://blog.csdn.net/qq_36653505/article/details/82974652

版权

Pytorch框架专栏收录该内容

15 篇文章 9 订阅

订阅专栏

本文探讨PyTorch中Variable的梯度计算原理，解释如何通过Variable.grad获取和累加梯度，并讨论如何置零Variable的梯度。同时，分析了为何在更新权重时使用Tensor而不是Variable，以及Variable在前向传播和反向传播中的角色和避免循环图的原因。

摘要由CSDN通过智能技术生成

在BP的时候，pytorch是将Variable的梯度放在Variable对象中的，我们随时都可以使用Variable.grad得到对应Variable的grad。刚创建Variable的时候，它的grad属性是初始化为0.0的。

>>> import torch
>>> from torch.autograd import Variable
>>> w1 = Variable(torch.Tensor([1.0,2.0,3.0]),requires_grad=True)#需要求导的话，requires_grad=True属性是必须的。
>>> w2 = Variable(torch.Tensor([1.0,2.0,3.0]),requires_grad=True)
>>> print(w1.grad)
>>> print(w2.grad)

Variable containing:
[torch.FloatTensor of size 3]
 
Variable containing:
[torch.FloatTensor of size 3]

从下面这两段代码可以看出，使用d.backward()求Variable的梯度的时候，Variable.grad是累加的即: Variable.grad=Variable.grad+new_grad

>>> d = torch.mean(w1)
>>> d.backward()
>>> w1.grad
 
Variable containing:
0.3333
0.3333
0.3333
[torch.FloatTensor of size 3]
 
>>> d.backward()
>>> w1.grad
 
Variable containing:
0.6667
0.6667
0.6667
[torch.FloatTensor of size 3]

既然累加的话，那我们如何置零呢？

>>> w1.grad.data.zero_()
>>> w1.grad
 
Variable containing:
[torch.FloatTensor of size 3]

通过上面的方法，就可以将grad置零。通过打印出来的信息可以看出，w1.grad其实是Variable。现在可以更清楚的理解一下Variable与Tensor之间的关系，上篇博客已经说过，Variable是Tensor的一个wrapper，那么到底是什么样的wrapper呢？从目前的掌握的知识来看，一个是保存weights的Tensor，一个是保存grad的Variable。Variable的一些运算，实际上就是里面的Tensor的运算。

pytorch中的所有运算都是基于Tensor的，Variable只是一个Wrapper，Variable的计算的实质就是里面的Tensor在计算。Variable默认代表的是里面存储的Tensor（weights）。理解到这，我们就可以对grad进行随意操作了。

# 获得梯度后，如何更新
learning_rate = 0.1
#w1.data -= learning_rate * w1.grad.data 与下面式子等价
w1.data.sub_(learning_rate*w1.grad.data)# w1.data是获取保存weights的Tensor