训练开始之前写上model.trian(),在测试时写上model.eval_r()。其中原因:
如果模型中有BN层(Batch Normalization)和Dropout,需要在训练时添加model.train(),在测试时添加model.eval_r()。其中model.train()是保证BN层用每一批数据的均值和方差,而model.eval_r()是保证BN用全部训练数据的均值和方差;而对于Dropout,model.train()是随机取一部分网络连接来训练更新参数,而model.eval_r()是利用到了所有网络连接。
联系Batch Normalization和Dropout的原理之后就不难理解为何要这么做了。