批量训练_ICLR20 -MABN：解决小批量训练BN不稳定的问题

最新推荐文章于 2024-06-22 20:49:02 发布

吴思扬

最新推荐文章于 2024-06-22 20:49:02 发布

阅读量550

点赞数

文章标签：批量训练

本文链接：https://blog.csdn.net/weixin_29053577/article/details/112577795

版权

批量归一化（BN）在小批次训练时表现不稳定，导致训练慢和推理性能差。论文提出了滑动平均批归一化（MABN），使用滑动平均统计量代替批统计量，解决了小批次训练BN的不稳定性问题，提升了模型性能。MABN在ImageNet和COCO数据集上显示出优秀效果。

摘要由CSDN通过智能技术生成

本次先大体翻译MABN的论文，有机会我会把YOLO中的BN换成MABN在小批次上试试效果。

批度归一化（Batch Normalization/BN已经成为深度学习领域最常用的技术之一，但他的表现很受批次(Batch Size)限制。小批次样本的批统计量（Batch Statistics)十分不稳定，导致训练的收敛速度比较慢，推理性能不好。
因此，很多改良的BN方法被提出，大体可以分成这两类：

通过纠正批统计量来还原BN在样本批次量充足时的性能，但是这些办法全都无法完全恢复BN的性能；
使用实例级的归一化 (instance level normalization)，使模型免受批统计量的影响。这一类方法可在一定程度上恢复BN在小批次上的性能，但是目前看来，实例级的归一化方法不能完全满足工业需求，因为这类方法必须在推理过程(inference)引入额外的非线性运算，大幅增加执行开销。

这里也提到一点，因为原始的BN是在全部训练之后使用整个训练数据的统计量，而不是批统计量，因此BN是一个线性算子，可以再推理中融入卷积层。
由下图1可知，实例级归一化的计算时间几乎是普通BN的两倍，因此在小批次训练中恢复BN的性能而不是推理的过程中引入任何一个非线性运算是一项困难但必要的任务。

图1 不同归一化方法的对比

在这篇论文中作者首次发现了在归一化的前向传播（Forward Propagation/FP）和反向传播（Backward Propagation/BP）中，不只有2个，实际上有4个批统计量参与进来。额外的与BP有关的两个批统计量的时候与模型的梯度有关，饰演了正则化模型的角色。
作者做了一个实验发现（见下图2）,由于批次小的缘故，在BP过程中梯度相关联的批统计量的方差甚至比大家都知道的批统计量（feature map的均值和方差）更大，所以作者认为与梯度相关联的批统计量的不

关注