批量训练_ICLR20 -MABN:解决小批量训练BN不稳定的问题

批量归一化(BN)在小批次训练时表现不稳定,导致训练慢和推理性能差。论文提出了滑动平均批归一化(MABN),使用滑动平均统计量代替批统计量,解决了小批次训练BN的不稳定性问题,提升了模型性能。MABN在ImageNet和COCO数据集上显示出优秀效果。
摘要由CSDN通过智能技术生成

30603bed1bb21f54f39756b17baa11b8.png
本次先大体翻译MABN的论文,有机会我会把YOLO中的BN换成MABN在小批次上试试效果。

目录

  • 背景
  • 介绍
  • 批归一化中的统计量
  • 滑动平均批归一化
  • 实验
  • 论文地址

背景

  • 批度归一化(Batch Normalization/BN已经成为深度学习领域最常用的技术之一,但他的表现很受批次(Batch Size)限制小批次样本的批统计量(Batch Statistics)十分不稳定,导致训练的收敛速度比较慢,推理性能不好
  • 因此,很多改良的BN方法被提出,大体可以分成这两类:
  1. 通过纠正批统计量来还原BN在样本批次量充足时的性能,但是这些办法全都无法完全恢复BN的性能
  2. 使用实例级的归一化 (instance level normalization),使模型免受批统计量的影响。这一类方法可在一定程度上恢复BN在小批次上的性能,但是目前看来,实例级的归一化方法不能完全满足工业需求,因为这类方法必须在推理过程(inference)引入额外的非线性运算,大幅增加执行开销。
  • 这里也提到一点,因为原始的BN是在全部训练之后使用整个训练数据的统计量,而不是批统计量,因此BN是一个线性算子,可以再推理中融入卷积层。
  • 由下图1可知,实例级归一化的计算时间几乎是普通BN的两倍,因此在小批次训练中恢复BN的性能而不是推理的过程中引入任何一个非线性运算是一项困难但必要的任务

f19ff7f655b988f14ef9f360ec03f266.png
图1 不同归一化方法的对比

简介

  • 在这篇论文中作者首次发现了在归一化的前向传播(Forward Propagation/FP)和反向传播(Backward Propagation/BP)中,不只有2个,实际上有4个批统计量参与进来。额外的与BP有关的两个批统计量的时候与模型的梯度有关,饰演了正则化模型的角色。
  • 作者做了一个实验发现(见下图2),由于批次小的缘故,在BP过程中梯度相关联的批统计量的方差甚至比大家都知道的批统计量(feature map的均值和方差)更大,所以作者认为与梯度相关联的批统计量的不
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值