Pytorch中的梯度回传与梯度清零

最新推荐文章于 2025-10-11 12:36:15 发布

原创

最新推荐文章于 2025-10-11 12:36:15 发布 · 1.1w 阅读

42 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

首先要明确在Pytorch当中，计算得到的梯度是默认累加的，而不是下次计算梯度就自动清零上一次的梯度值。

这样做的好处有以下几点：

1、减小multitask的内存消耗

在PyTorch中，multi-task任务一个标准的train from scratch流程为：

for idx, data in enumerate(train_loader):
    xs, ys = data
    pred1 = model1(xs)
    pred2 = model2(xs)
    

    loss1 = loss_fn1(pred1, ys)
    loss2 = loss_fn2(pred2, ys)
    
    ******
    loss = loss1 + loss2
    optmizer.zero_grad()
    loss.backward()
    ++++++
    optmizer.step()

从PyTorch的设计原理上来说，在每次进行前向计算得到pred时，会产生一个用于梯度回传的计算图，这张图储存了进行back propagation需要的中间结果（中间结果即每个需要更新变量的输出对本变量的局部梯度，用于根据链式法则进行梯度回传）。当调用了.backward()后，会从内存中将这张图进行释放。上述代码执行到************************时，内存中是包含了两张计算图的。执行到++++++时，得到对应的grad值并且释放内存。这样，训练时必须存储两张计算图，而如果loss的来源组成更加复杂，内存消耗会更大。

为了减小每次的内存消耗，借助梯度累加，有：

因此有如下变种

for idx, data in enumerate(train_loader):
    xs, ys = data
    
    optmizer.zero_grad()
    # 计算d(l1)/d(x)
    pred1 = model1(xs) #生成graph1
    loss1 = loss_fn1(pred1, ys)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

槲寄、生下

关注关注

9
点赞
踩
42

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pytorch的no_grad()用法

蜗牛在奔跑的博客

04-08

2106

方法是 PyTorch 中的一个上下文管理器，在进入该上下文管理器时禁止梯度的计算，从而减少计算的时间和内存，加速模型的推理阶段和参数更新。在推理阶段，只需进行前向计算，而不需要计算和保存每个操作的梯度。在参数更新时，我们只需要调整参数，并不需要计算梯度，而在训练阶段，需要进行反向传播以获取梯度，并对其进行参数更新。方法可以避免由于不必要的梯度计算而导致计算图占用过多的内存，从而降低了程序的性能。例如，以下代码将比其中不包含。

Pytorch实现将模型的所有参数的梯度清0

12-17

有两种方式直接把模型的参数梯度设成0： model.zero_grad() optimizer.zero_grad()#当optimizer=optim.Optimizer(model.parameters())时，两者等效如果想要把某一Variable的梯度置为0，只需用以下语句： Variable.grad.data.zero_() 补充知识：PyTorch中在反向传播前为什么要手动将梯度清零？optimizer.zero_grad()的意义 optimizer.zero_grad()意思是把梯度置零，也就是把loss关于weight的导数变成0. 在学习pytorch的时候注

3 条评论您还未登录，请先登录后发表或查看评论

3 条评论

城俊BLOG 2020.12.01
综合你的博客内容来看就是，loss.backward能够实现计算图释放，optimizer.step和zero_grad()能实现回传梯度释放。是这样么？

城俊BLOG 2020.12.01
第一个减少内存消耗，你这是分两次回传吧，你怎么知道第二次回传“也能累加到第一个模型的梯度上”呢？
- 我有两颗糖回复城俊BLOG 2023.06.05
  import torch # 定义需要进行梯度计算的 tensor x = torch.Tensor([[1, 2]]) w = torch.Tensor([[3], [4]]) x.requires_grad = True w.requires_grad = True print('x', x) print('w', w) for i in range(4): z = torch.mm(x, w.detach()) z.backward() print('x.grad', x.grad) print('w.grad', w.grad) 跑一下这段代码测试即可