刚刚接触深度学习时,经常会在代码中看到model.train()和model.eval(),这里主要谈谈他们的区别和作用,以方便初学者更好的理解和掌握它。
model.train()和model.eval()的区别主要在于Batch Normalization和Dropout两层。如果模型中有BN层(Batch Normalization)和 Dropout,需要在训练时添加model.train()。
model.train()是保证BN层能够用到每一批数据的均值和方差。对于Dropout,model.train()是随机取一部分网络连接来训练更新参数。
model.eval()是保证BN层能够用全部训练数据的均值和方差,同时网络的连接是不会根据dropout参数来随机屏蔽一部分连接的。
另外,如果模型比较复杂,直接对模型model使用model.eval(),有可能出现dropout仍然生效的情况。这种情况下需要让每个包含dropout的执行节点的block变为eval()模式。比如:有一个名为net的网络其中有一名为decoder的层包含了dropout,则需要使用net.decoder.eval()使dropout失效。