【学习】pytorch中with torch.no_grad():和 model.eval()的区别

最新推荐文章于 2024-04-06 16:48:38 发布

超好的小白

最新推荐文章于 2024-04-06 16:48:38 发布

阅读量884

点赞数 9

分类专栏：深度学习学习记录文章标签：学习 pytorch 人工智能

本文链接：https://blog.csdn.net/qq_46110320/article/details/136219907

版权

深度学习学习记录专栏收录该内容

28 篇文章 1 订阅

订阅专栏

model.eval()和with torch.no_grad()的区别
先给出结论：这两个的所起的作用是不同的。

model.eval()

model.eval()的作用是不启用Batch Normalization 和 Dropout. 相当于告诉网络，目前在eval模式，dropout层不会起作用（而在训练阶段，dropout会随机以一定的概率丢弃掉网络中间层的神经元，而且在实际操作过程中一般不在卷积层设置该操作，而是在全连接层设置，因为全连接层的参数量一般远大于卷积层），batch normalization也有不同的作用（在训练过程中会对每一个特征维做归一化操作，对每一批量输入算出mean和std，而在eval模式下BN层将能够使用全部训练数据的均值和方差，即测试过程中不再针对测试样本计算mean和std，而是用训练好的值）。

with torch.no_grad()

当我们计算梯度的时候，我们需要缓存前向传播过程中大量的中间输出，因为在反向传播pytoch自动计算梯度时需要用到这些值。而我们在测试时，我们不需要计算梯度，那么也就意味着我们不需要在forward的时候保存这些中间输出。此外，在测试阶段，我们也不需要构造计算图（这也需要一定的存储开销）。Pytorch为我们提供了一个上下文管理器，torch.no_grad，在with torch.no_grad() 管理的环境中进行计算，不会生成计算图，不会存储为计算梯度而缓存的中间值。