#今日论文推荐# ACM MM 2022 | 统一归一化:加速Transformer工业部署的归一化方法

#今日论文推荐# ACM MM 2022 | 统一归一化:加速Transformer工业部署的归一化方法

Transformer 这两年在 CV 任务上取得了广泛的应用和验证,其在工业界有着很强的部署和落地需求。对比 CNN 中的采用的 BN 归一化方式(BN 是非常高效的,在部署中可以吸收到卷积中),Transformer 中采用 LayerNorm 的归一化方式,对部署是非常不友好的。主要原因有两点:1)LN 需要在线计算过程,具体地,在线计算均值和方差;2)LN 的方差计算需要开方操作,这在某些部署平台上是非常低效的,甚至是不支持的。
那么直接在 Transformer 中将 LN 替换成 BN 怎么样呢?实验性的答案是性能会变差甚至训练会直接崩溃。其实这个问题很多同学都发现了,也都进行了讨论,transformer 为什么使用 layer normalization,而不是其他的归一化方法?深究其中的原因,我们是将其归结为 transformer 在训练过程中的激活值及其梯度的统计值异常问题(后面会详细讨论)。
对此的话,我们是提出了一种统一的归一化方法 Unified Normalization(UN),首先,它可以像 BN 一样是非常高效,能够被合并到相邻的线性操作中。其次,利用数据的先验统计信息,相较于 LN,它可以做到性能几乎相同或者很小的掉点。我们在机器翻译、图像分类、目标检测和图像分割等任务上都验证了其有效

论文题目:Unified Normalization for Accelerating and Stabilizing Transformers
详细解读:https://www.aminer.cn/research_report/6304c6f07cb68b460f0a1ed5icon-default.png?t=M7J4https://www.aminer.cn/research_report/6304c6f07cb68b460f0a1ed5
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值