CHARACTERIZING SIGNAL PROPAGATION TO CLOSE THE PERFORMANCE GAP IN UNNORMALIZED RESNETS
https://arxiv.org/pdf/2101.08692.pdf
background
目前的CV领域,BatchNormalization几乎是所有SOTA工作中必备的操作。它确实带来了很多好处,例如:
-
平滑了Loss平面,同时消除了因mini_batch带来的噪声,整体来说就是提高了网络训练的速度和稳定性。
-
目前一些工作发现BN能够与ResNet结构有较好的协同作用,能够稳定良好的信号传输,保证了深层网络的成功训练
-
也有一些工作证明BN对于网络训练的过拟合问题其实也有一定的缓解作用。
limit
但是BN同样存在一些问题:
-
强依赖于batch_size的大小,对硬件要求较高
-
造成了模型training和inference阶段的精度gap(分别采用不同的参数)
-
增加额外的内存计算开销
-
不同硬件上进行分布式训练较难实现
-
一些改进工作(LN, GN等)也各有各的缺点,如计算消耗等
-
针对ResNet等,有一些通过控制残差结构与支路的信号传输来去除normalize操作的改进工作,但性能上相比于基于BN的网络来说还是有所欠缺。
n