#今日论文推荐# ACM MM 2022 | 统一归一化:加速Transformer工业部署的归一化方法
Transformer 这两年在 CV 任务上取得了广泛的应用和验证,其在工业界有着很强的部署和落地需求。对比 CNN 中的采用的 BN 归一化方式(BN 是非常高效的,在部署中可以吸收到卷积中),Transformer 中采用 LayerNorm 的归一化方式,对部署是非常不友好的。主要原因有两点:1)LN 需要在线计算过程,具体地,在线计算均值和方差;2)LN 的方差计算需要开方操作,这在某些部署平台上是非常低效的,甚至是不支持的。
那么直接在 Transformer 中将 LN 替换成 BN 怎么样呢?实验性的答案是性能会变差甚至训练会直接崩溃。其实这个问题很多同学都发现了,也都进行了讨论,transformer 为什么使用 layer normalization,而不是其他的归一化方法?深究其中的原因,我们是将其归结为 transformer 在训练过程中的激活值及其梯度的统计值异常问题(后面会详细讨论)。
对此的话,我们是提出了一种统一的归一化方法 Unified Normalization(UN),首先,它可以像 BN 一样是非常高效,能够被合并到相邻的线性操作中。其次,利用数据的先验统计信息,相较于 LN,它可以做到性能几乎相同或者很小的掉点。我们在机器翻译、图像分类、目标检测和图像分割等任务上都验证了其有效
论文题目:Unified Normalization for Accelerating and Stabilizing Transformers
详细解读:https://www.aminer.cn/research_report/6304c6f07cb68b460f0a1ed5https://www.aminer.cn/research_report/6304c6f07cb68b460f0a1ed5
AMiner链接:https://www.aminer.cn/?f=cs