pytorch 中detach() 和 with torch.no_grad()和eval()

最新推荐文章于 2023-04-05 21:12:27 发布

Cater Chen

最新推荐文章于 2023-04-05 21:12:27 发布

阅读量1.2k

点赞数 2

分类专栏： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_28375239/article/details/119039411

版权

pytorch 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文对比了PyTorch中的detach()和torch.no_grad()方法，解释了它们在梯度跟踪和训练/推断模式中的作用，同时提到了model.eval()的区别。理解这两种技巧对于高效编程和防止梯度错误至关重要。

摘要由CSDN通过智能技术生成

detach() 和 torch.no_grad() 都可以实现相同的效果，只是前者会麻烦一点，对每一个变量都要加上，而后者就不用管了:

- detach() 会返回一个新的Tensor对象，不会在反向传播中出现，是相当于复制了一个变量，将它原本requires_grad=True变为了requires_grad=False

- torch.no_grad() 通常是在推断(inference)的时候，用来禁止梯度计算，仅进行前向传播。在训练过程中，就像画了个圈，来，在我这个圈里面跑一下，都不需要计算梯度，就正向传播一下。

而model.eval()和torch.no_grad()两者都用，因为两者有着不同的作用：

- torch.no_grad()：在autograd中禁用梯度跟踪

- model.eval()：更改所调用模块的forward()行为。例如，它禁用dropout，并使用测试时bn norm

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。