pytorch快速上手之二_排除计算图

最新推荐文章于 2022-11-18 16:32:06 发布

IMchg

最新推荐文章于 2022-11-18 16:32:06 发布

阅读量1.1k

点赞数

分类专栏： python之深度学习文章标签： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IMchg/article/details/110235369

版权

本文介绍了PyTorch中`torch.no_grad()`的使用，它用于节省内存，通过设置tensor的`grad_require`为False来避免不必要的梯度计算。同时，文章还提及了`model.zero_grad()`的作用，用于清空模型参数的梯度，确保每次反向传播时只保留最后一步的导数值。

摘要由CSDN通过智能技术生成

GPU确实快，但是显存太小不够跑别人的代码时，可以把一些操作简化。如：原模型中使用了预训练模型Bert，且对Bert微调，如果实在跑不动，可以改为不微调Bert，先跑起来再说。

一 with torch.no_grad()

https://www.jianshu.com/p/1cea017f5d11
https://blog.csdn.net/weixin_43178406/article/details/89517008

作用：节省内存

关键概念：grad_require requires_grad、grad_fn

说明：

什么样的tensor可以调用backward()方法【即可以主动求导】？
grad_fn 不为None的tensor
什么样的tensor存在grad属性【即被求导】？
grad_require 为 True的tensor
什么样的tensor的grad_fn不为None？
计算该tensor的表达式中，存在参数的grad_require不为false

注意：

tensor的grad_require默认为false；grad_require为true时，tensor的grad属性保存上次被求导时的导数值；

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。