model.train() model.eval()
一般在模型训练和评价的时候会加上这两句,主要是针对model 在训练时和评价时不同的 Batch Normalization 和 Dropout 方法模式。
eval()时,pytorch会自动把BN和DropOut固定住,不会取平均,而是用训练好的值。不然的话,一旦test的batch_size过小,很容易就会被BN层导致生成图片颜色失真极大。
Batch Normalization
BN的前三步分别是求均值,求方差,用标准数据减均值除以标准差得到归一化后的数据。
经过激活函数后,如果数据在梯度很小的区域,学习速率就会很慢甚至陷入长时间的停滞。通过归一化,数据被移到了中心区域,可看作是一种对抗梯度消失的手段。
如果对于每一层数据都这么操作,那么数据的分布就总是在随输入变化敏感的区域,相当于不用考虑数据分布变来变去了,训练起来效率提高很多。
但是对于数据本身就很不对称,或者激活函数未必对方差为1的数据有最好的效果的情况,还需要对归一化后的数据进行优化y=Ax+B,BN的本质就是利用优化变一下方差大小和均值的位置。