MABN论文的译读笔记

摘要

BN是深度学习领域使用最广泛的方法之一;但是其性能会因为batch-size不足而严重下降。这个缺点限制了BN在某些计算机视觉任务上的应用,例如:检测和分割,某些情况下由于内存使用的限制batch-size会设置得较小。因此,提出了很多改进的归一化方法;这些方法有的无法达到BN的性能,又或者需要在推理阶段引入额外的非线性操作而需要更大的计算资源。在本文中,作者展现了BN在反向传播是涉及的两个额外的批统计量,这两个统计量在之前并没有被充分讨论过。两项批统计量与梯度相关,并且会密切地影响深度神经网络的训练。基于本文的分析,作者提出新型的归一化方法,称为 Moving Average Batch Normalization, MABN。MABN可以在小批次情况下完全恢复单纯BN的性能,且不需要在推理阶段引入任何额外的非线性操作。本文从理论分析和实验上验证了MABN的收益。实验还展示了MABN在多个计算机视觉任务上的有效性,包括ImageNet和COCO。MABN的相应代码开源在https://github.com/megvii-model/MABN

1 引言

BN【(Ioffe & Szegedy, 2015)_BN】是训练神经网络最流行的方法之一。 它已在许多应用中被广泛证明是有效的,并成为许多最先进的深度模型不可或缺的一部分。
尽管BN十分成功,在 batch size很小时使用BN时仍然面临问题。小batch-size下的批次统计量是十分不稳定的,会导致训练时收敛较慢以及推理时性能变差。举例来说,在检测或分割任务中,由于需要高分辨率输入或模型的复杂结构,批次大小通常限制为每个GPU为1或 2。不经过任何修改而直接在每个GPU上计算批次统计量会使得模型的性能严重下降。
为了解决这方面问题,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值