踩坑记----Batch Normalization引发的INF或NAN

最新推荐文章于 2025-02-24 22:57:00 发布

程序猿也可以很哲学

最新推荐文章于 2025-02-24 22:57:00 发布

阅读量4.2k

点赞数 3

分类专栏：深度学习文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/qq_16564093/article/details/109710046

版权

深度学习专栏收录该内容

12 篇文章

订阅专栏

Batch Normalization是众所周知的好用，但Batch Normalization在某些情况下，却会适得其反。

在使用别人的模型训练时，往往因为显存的不足，会导致我们的BatchSize无法设置的较高，当我使用BatchSize=4的情况下，开始Loss会稳定下降，但当一定step之后，会在某个Batch时出现Loss突然变大的情况，在这个Batch之后，Loss会变得越来越大。最终出现INF或者NAN的情况。

当Loss出现异常值，往往会优先考虑是否Loss的计算方法存在Bug或者模型的输出存在异常，然而经过一系列的排查，花了大把功夫，最终才确定是BatchSize设置过小，而模型过于复杂，里面大量使用了Batch Normalization的原因。

在使用Batch Normalization进行训练时，因为mean跟var都为实时计算，所以，当Batch Size过于小时，模型会反而变得更难拟合，而且Loss会跌宕起伏，并且导致梯度变化异常，最终weight也更新异常，最终导致下个Batch往错误的方向越走越远，具体原因大家可以自己再深入研究。于是，当我们使用BN时，并且Batch Size过于小时，要将mean/var进行冻结。方式如下。

https://discuss.pytorch.org/t/how-to-train-with-frozen-batchnorm/12106

建议，Batch Size最好在8及以上，当然如果过大也不好，选择合适的Batch Size才有利于模型的快速拟合。

关注博主即可阅读全文