.train()和.eval()区别

O_o381

已于 2024-11-18 10:12:46 修改

阅读量1.4k

点赞数 27

文章标签： pytorch python 深度学习

于 2024-11-17 16:15:30 首次发布

本文链接：https://blog.csdn.net/qq_61706514/article/details/143833472

版权

在深度学习和神经网络的上下文中，.train() 和 .eval() 是两个用于控制网络训练状态的方法，它们的主要区别如下：

训练模式与评估模式：
- .train()：将网络设置为训练模式。在训练模式下，网络会启用诸如Dropout和Batch Normalization等在训练过程中需要用到的技术。这些技术有助于模型学习，但在模型评估或推理时不需要。
- .eval()：将网络设置为评估模式。在评估模式下，网络会关闭Dropout和Batch Normalization等操作，确保模型在评估或测试数据时的表现与其在训练时学到的行为一致。
参数更新：
- 在训练模式下，网络的参数（权重和偏置）会根据损失函数和优化算法进行更新。
- 在评估模式下，网络的参数不会更新，这有助于在评估模型性能时获得更准确的结果。
用途：
- .train() 用于模型的训练阶段，此时模型通过反向传播算法学习数据中的模式。
- .eval() 用于模型的评估或测试阶段，此时模型用于预测或评估其在未见数据上的性能

简单来说，就是在训练模式下网络的参数会更新，评估模式下参数不会更新。

正如他们的名字训练，评估。

此处以dropout层为例来感受不同模式如何影响网络的行为：

实例：

import torch
import torch.nn as nn

# 假设我们有一个简单的神经网络，只包含Dropout层
class SimpleNetWithDropout(nn.Module):
    def __init__(self):
        super(SimpleNetWithDropout, self).__init__()
        self.fc1 = nn.Linear(10, 5)  # 一个简单的线性层
        self.dropout = nn.Dropout(0.5)  # Dropout层，丢弃概率为0.5

    def forward(self, x):
        x = self.fc1(x)
        print(f"经过fc1:{x}")
        x = self.dropout(x)  # Dropout层在训练和评估模式下表现不同
        return x

# 实例化网络
net = SimpleNetWithDropout()

# 将网络设置为训练模式
net.train()
print("training mode.")
print("Forward pass in training mode with Dropout:")
inputs = torch.randn(1, 10)  # 随机生成一些输入数据
outputs_train = net(inputs)  # 前向传播
print(outputs_train)

# 将网络设置为评估模式
net.eval()
print("evaluation mode.")
print("Forward pass in evaluation mode with Dropout:")
with torch.no_grad():  # 在评估模式下，我们通常使用torch.no_grad()来禁用梯度计算
    outputs_eval = net(inputs)  # 再次进行前向传播，此时网络处于评估模式
    print(outputs_eval)

输出：

training mode.
Forward pass in training mode with Dropout:
经过fc1:tensor([[ 0.3143, 0.2855, -0.8644, -1.0411, -0.8121]],
grad_fn=<AddmmBackward0>)
tensor([[ 0.0000, 0.5709, -1.7288, -0.0000, -1.6241]], grad_fn=<MulBackward0>)

#可以发现在训练模式下经过dropout层，dropout层进行了置零操作（1，3位置）

#2，4，5位置元素乘以二的原因放在本文最后

evaluation mode.
Forward pass in evaluation mode with Dropout:
经过fc1:tensor([[ 0.3143, 0.2855, -0.8644, -1.0411, -0.8121]])
tensor([[ 0.3143, 0.2855, -0.8644, -1.0411, -0.8121]])

#可以发现在评估模式下经过dropout层，dropout层失效

dropout的行为：nn.Dropout（）-CSDN博客

Dropout层还有一个行为，那就是在训练模式下，对于那些没有被置零的元素，它们的值会被乘以一个缩放因子，以保持期望的输出值不变。这个缩放因子是1 / (1 - p)，其中p是Dropout概率。在例子中，Dropout概率p是0.5，所以缩放因子是1 / (1 - 0.5) = 2。这意味着在训练模式下，只有50%的神经元输出会被保留，而保留的输出值会被乘以2，以保持输出的期望值与没有Dropout时相同。

Dropout是一种正则化技术，用于防止神经网络过拟合。它的工作原理是在训练过程中随机“丢弃”（即设置为0）网络中的一部分神经元输出。这样做的目的是减少神经元之间复杂的共适应关系，使得模型更加健壮，能够从数据中学习到更加泛化的特征。

然而，如果我们简单地将一部分神经元的输出设置为0，那么网络的输出规模（即输出向量的总和）会减小，这会影响网络的学习过程，因为梯度下降算法依赖于输出和目标之间的差异来更新权重。为了解决这个问题，Dropout引入了一个缩放因子，以保持输出的期望值不变。

具体来说，如果我们设置Dropout率为p，那么在每次训练迭代中，只有(1-p)比例的神经元会保留其输出。如果没有缩放，那么输出的期望值将会是原来的(1-p)倍。为了补偿这一点，我们对保留的神经元输出乘以1/(1-p)，这样输出的期望值就能保持不变。

以本文例子为例，Dropout率为0.5，这意味着平均有50%的神经元输出会被保留。如果没有缩放，输出的期望值将会是原来的50%，即0.5倍。为了保持期望值不变，我们需要将保留的输出乘以1/(1-0.5) = 2。这样，即使只有一半的神经元输出被保留，整个网络的输出期望值仍然与没有Dropout时相同。

这里有一个数学上的解释：

假设原始输出为y，经过Dropout后，我们只保留了一部分输出，设为y'。在没有Dropout的情况下，y的期望值是E[y]。在有Dropout的情况下，我们希望y'的期望值也是E[y]。

由于Dropout，y'中的每个元素都有p的概率被置为0，有(1-p)的概率保持不变。因此，y'中每个元素的期望值是(1-p) * y。为了使y'的期望值与y相同，我们需要将y'中的每个元素乘以1/(1-p)，这样y'的期望值就变为了(1/(1-p)) * (1-p) * y = y。