【论文速递】基于批量归一化的混洗SGD训练不稳定性

【论文原文】 :On the Training Instability of Shuffling SGD with Batch Normalization
【作者信息】 :David X. Wu[UC Berkeley], Chulhee Yun[KAIST], Suvrit Sra[MIT]

论文地址:https://arxiv.org/abs/2302.12444

关键词:随机梯度下降,批量归一化

摘要:

我们揭示了SGD如何与batch normalization交互,并可能表现出不期望的训练动态,如发散。更准确地说,我们研究了单次洗牌(Single Shuffle, SS)和随机重洗牌(Random Reshuffle, RR)——两种广泛使用的SGD变体——在存在批量归一化的情况下如何以惊人的不同方式相互作用:RR导致比SS更稳定的训练损失演变。作为一个具体的例子,对于使用具有批量归一化的线性网络的回归,我们证明了SS和RR收敛到不同的全局最优,这些全局最优远离梯度下降而“失真”。此后,对于分类,我们描述了SS和RR的训练发散可能发生和不可能发生的条件。我们提出了显式结构,以显示SS如何导致回归的失真最优和分类的发散,而RR避免了失真和发散。我们通过在现实环境中对结果进行实证验证,并得出结论,与batch normalization一起使用的SS和RR之间的分隔在实践中是相关的。

简介

深度学习理论的最新工作试图揭示优化算法和架构的选择如何影响训练的稳定性和效率。在优化方面,随机梯度下降(SGD)是主力军,其重要性相应地导致了许多旨在提高训练难度和速度的不同变体的开发,例如AdaGrad(Duchi等人,2011)和Adam(Kingma和Ba,2014)。实际上,从业者通常不会按照SGD的要求使用梯度的替换采样(with-replacement sampling)。相反,他们使用无替换抽样(without-replacement sampling),导致SGD的两个主要变体:单次洗牌(Single Shuffle, SS)和随机洗牌(random-reshuffle)。SS在训练开始时随机采样并固定排列,而RR在每个时期随机重新采样排列。这些洗牌算法通常更实用,可以提高收敛速度(Haochen和Sra,2019;Safran和Shamir,2020;Yun等人,2021b;2022)。
架构设计为从业者提供了另一种途径,以更有效地训练网络并编码显著的inductive biases。诸如BatchNorm(BN)(Ioffe和Szegdy,2015)、LayerNorm(Ba等人,2016)或InstanceNorm(Ulyanov等人,2016年)等标准化层通常是与SGD一起使用以加速收敛和稳定训练。最近的工作研究了这些scale-invariant层如何通过有效学习率影响训练(Li和Arora,2019年;Li等人,2020年;Lyu等人,2022年;Wan等人,2021)。在这些实际选择的激励下,我们研究了SS和RR如何在训练时与批量归一化交互。我们的实验表明,SS和BN的组合可能会导致令人惊讶和不期望的训练现象:(i)当使用SS+BN在真实数据集上训练线性网络(即,没有非线性激活)时,训练风险通常会发生发散,而使用不带BN的SS不会导致发散。(ii)在调整学习率和其他超参数后,发散持续存在(第4.3节),并且在更深的线性网络中也更快地表现出来(图1a)。(iii)在诸如ResNet18的非线性架构中,SS+BN通常比RR+BN收敛得慢(见图1b)。鉴于这些令人惊讶的实验发现,我们寻求一种理论解释。

贡献:

我们的分析集中在研究风险函数和最优值如何受到优化器(SS/RR)和架构(BN)选择的影响。
我们从理论和实验上理解了shuffling SGD和BN如何相互勾结,从而产生发散和其他不期望的训练行为。由于这些现象在训练风险上表现出来,我们的结果并没有严格地与generalization相结合。
简单地说,异常的训练动态源于BN不是跨epoch的排列不变(permutation invariant)。这个简单的属性与SS相互作用,尽管先验上不清楚它是否应该这样做。更具体地说,我们期望SGD+BN在期望中优化梯度下降(GD)风险。然而,由于BN对排列(permutation)的敏感性,SS+BN和RR+BN都隐含地训练了不同于GD的诱导风险,并且也彼此不同。

结论

本文证实了用SS训练BN网络会导致不良的训练行为,包括GD风险收敛速度变慢甚至发散。然而,RR可证明缓解了这种发散行为,实验证据表明,使用RR通常比SS收敛得更快。SS和GD之间的训练行为分离是因为data shuffling直接影响BN在小批量上的操作方式。我们在初步实验中观察到,类似的分隔在泛化性上也表现出来,但我们将这个方向留给未来的工作。我们注意到,当使用以小批量方式实现的其他设计选择时,如混合(mixup, Zhang等人,2017)和锐度感知最小化(SharpnessAware Minimization, SAM) (Foret等人,2020),可能会出现类似的令人惊讶的现象。出于这些原因,我们通常建议从业者使用RR而不是SS。

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值