with torch.no_grad()理解

最新推荐文章于 2024-07-19 10:46:01 发布

Chos1nz

最新推荐文章于 2024-07-19 10:46:01 发布

阅读量1.5k

点赞数 1

分类专栏： pytorch 文章标签： pytorch 深度学习人工智能

本文链接：https://blog.csdn.net/wcj623917753/article/details/122600666

版权

pytorch 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前置

1.pytorch中tensor的操作都要进行计算图的构建，为backward反向传播做准备。
2.手动创建的为叶子结点，由叶子结点生产的表达式会继承叶子结点的requires_grad(有True就继承True,没True就继承False)

import torch
x_1 = torch.tensor([1.,2.,3.],requires_grad=True)#不能是整数
y_1 = x*x
print(y.requires_grad)
#True

import torch
x_2 = torch.tensor([1.,2.,3.])#不指定就默认为False
y_2 = x_2*x_2
print(y_2.requires_grad)
#False

x_31 = torch.tensor([1.,2.,3.],requires_grad=True)
x_32 = torch.tensor([1.,2.,3.],requires_grad=False)
y = x_31*x_32
print(y.requires_grad)
#True

3.在进行梯度下降之后，梯度会保留在变量的grad里，在下一次反向传播前要进行梯度清空，否则会在原有的梯度基础上继续计算

with torch.no_grad()

def sgd(params, lr, batch_size):  #params是含有w和b的tensor,requires_grad = True
    with torch.no_grad():
        for param in params:
            param -= lr * param.grad / batch_size#1
            param.grad.zero_()#梯度清空

#1处是tensor操作，由于param允许梯度计算，若没有torch.no_grad()则会在计算过程中自动构建计算图，产生不必要的显存占用

写出来算是把自己说服了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Chos1nz

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【深度学习】with torch.no_grad的作用

李响

12-23

1717

with open("１.txt") as file: data = file.read() 总结with工作原理：（１）紧跟with后面的语句被求值后，返回对象的“–enter–()”方法被调用，这个方法的返回值将被赋值给as后面的变量；（２）当with后面的代码块全部被执行完之后，将调用前面返回对象的“–exit–()”方法。关于 torch.no_grad() 首先从requires_grad讲起：在pytorch中，tensor有一个requires_grad参数，如果设置为Tr

【pytorch】 with torch.no_grad():用法详解

最新发布

m0_49133355的博客

07-19

980

torch.no_grad() 是一个用于禁用梯度计算的上下文管理器，适用于模型评估、推理等不需要梯度计算的场景。在使用 torch.no_grad() 时，通常还会将模型设置为评估模式（model.eval()），以确保某些层（如 dropout 和 batch normalization）在推理时的行为与训练时不同。torch.no_grad() 可以嵌套使用，内层的 torch.no_grad() 仍然会禁用梯度计算。进入 torch.no_grad() 上下文，临时禁用梯度计算。

with torch.no_grad()

weixin_44682222的博客

10-05

475

#with torch.no_grad() 详解 ''' 被该语句包裹起来的语句将不会被追踪梯度 ''' a=torch.tensor([1.1],requires_grad=True) b=a*2 print(b)#tensor([2.2000], grad_fn=<MulBackward0>) b.add_(2) print(b)#tensor([4.2000], grad_fn=<AddBackward0>) with torch.no_grad(): b.mul_

with torch.no_grad():显著减少测试时显存占用

qq_61888524的博客

10-17

4276

问题描述将训练好的模型拿来做inference，发现显存被占满，无法进行后续操作，但按理说不应该出现这种情况。 RuntimeError: CUDA out of memory. Tried to allocate 128.00 MiB (GPU 0; 7.93 GiB total capacity; 6.94 GiB already allocated; 10.56 MiB free; 7.28 GiB reserved in total by PyTorch) 解决方案 ...

【PyTorch】with torch.no_grad() 详解

m0_73771268的博客

05-01

2698

我们知道在 PyTorch 中，前向传播过程中构建计算图，而反向传播时销毁计算图以释放内存并计算叶子节点的梯度信息。尽管如此，由于在 torch.no_grad() 上下文中创建的张量（如 param）不依赖于计算图中的其他节点，它们仍然被视为叶子节点。因此，这些张量的梯度信息仍然可以被访问，但是梯度计算不会在该上下文中进行，因此在此上下文内产生的张量不会保存任何梯度信息。因为原地操作会覆盖当前内存的值，但叶子节点所指向的内存块进行无法进行修改操作，否则会导致其中梯度信息与节点的值不再有计算上的对应关系。

pytorch中with torch.no_grad(): && model.eval()

ZwaterZ的博客

07-22

1910

with是python中上下文管理器，简单理解，当要进行固定的进入，返回操作时，可以将对应需要的操作，放在with所需要的语句中。比如文件的写入（需要打开关闭文件）等。以下为一个文件写入使用with的例子。后部分，可以将with后的语句运行，将其返回结果给到as后的变量（sh），之后的代码块对close进行操作。...

pytorch中with torch.no_grad():

weixin_44134757的博客

04-26

6万+

1.关于with with是python中上下文管理器，简单理解，当要进行固定的进入，返回操作时，可以将对应需要的操作，放在with所需要的语句中。比如文件的写入（需要打开关闭文件）等。以下为一个文件写入使用with的例子。 with open (filename,'w') as sh: sh.write("#!/bin/bash\n") ...

测试torch.no_grad()的作用

weixin_47343182的博客

07-01

8865

torch.no_grad()两个作用：新增的tensor没有梯度，使带梯度的tensor能够进行原地运算。 1.使带有梯度的tensor能够原地运算（更新tensor） from torch.autograd import Variable x = Variable(torch.ones(1, 2),requires_grad=True) x += 1 #或者调用x.add_(1) #注意add_下划线报错：RuntimeError: a leaf Variable that requires gra

pytorch 使用with torch.no_grad替换volatile

Youngtion_的博客

03-01

1014

今天踩了什么坑今天看训练的输出结果使发现了一个报错百度后发现是新的版本下volatile已经被弃用，并且提示可使用： with torch.no_grad 代替volatile；前置知识 requires_grad 在pytorch中，tensor有一个requires_grad参数（默认为False），如果设置为True，则反向传播时，该tensor就会自动求导。tensor的requires_grad的属性默认为False,若一个节点（叶子变量：自己创建的tensor）requires_gra

PyTorch中model.zero_grad()和optimizer.zero_grad()用法

09-16

主要介绍了PyTorch中model.zero_grad()和optimizer.zero_grad()用法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

with torch.no_grad()和backward()

laizi_laizi的博客

01-16

3228

在编程中遇到了with torch.no_grad()用法，想整明白，过程中有一些意料之外的东西，故此记录一下。首先说明一下环境，以下的测试均在：python3.6, pytorch1.2.0 环境下给出：官网的截图如下：主要有几个重要的点： torch.no_grad上一个上下文管理器，在你确定不需要调用Tensor.backward()时可以用torch.no_grad来屏蔽梯度计算在被torch.no_grad管控下计算得到的tensor，它的requires_grad就是False 下

pytorch中 with torch.no_grad() 详解

qq_28057379的博客

04-04

2197

with torch.no_grad() 是一个上下文管理器，由它管理的代码块不需要计算梯度，也不会进行反向传播，因此在训练阶段常用于验证集计算loss、在测试阶段，则需要加上该代码，避免进行损失梯度的计算 ...

【动手深度学习v2】with torch.no_grad()用法

Tracy_yi的博客

07-17

390

【动手深度学习v2】with torch.no_grad()用法

Pytorch使用时遇到的关于in place，grad.zero_()操作，require_grad=True

weixin_44727910的博客

04-23

2390

Pytorch使用时遇到的关于in place，grad.zero_()操作，require_grad=True

with torch.no_grad() 和叶子节点in place操作

yjy420的博客

09-02

173

例如下面的代码由于y依赖于w求梯度，如果改变了w，那么反向传播求梯度的时候y的梯度是错误的，所以pytorch设置为不能改变。另一种情况是requires_grad为true非叶子节点，在求梯度时需要被用到，也不可以进行in place操作。但这里如果修改的是f也不会报错，只有中间节点不能修改。参考https://zhuanlan.zhihu.com/p/38475183。

pytorch中关于with torch.no_grad()的一些理解

zhu1zhu1的博客

08-10

789

最近在看李沐老师的【动手学深度学习 v2】，在线性回归部分，由于本人知识储备有限，对不是很理解，在结合一些相关博文解释和自己不断运行代码的情况下，认为主要可以在两种情况下使用。

动手学深度学习之如何理解param.grad / batch_size（详细讲解）

我有明珠一颗的博客

02-09

2304

动手学深度学习之如何理解param.grad / batch_size（详细讲解）从上图计算过程可以看出，params.grad 其实是batch中所有样本的grad总和，所以这个时候除以batch_size就是相当于取一个平均值，这样就算下一次传入的batch_size改变了，最后也不会影响得到的平均数。