#今日论文推荐# ACM MM 2022 | 统一归一化：加速Transformer工业部署的归一化方法

wwwsxn

已于 2022-08-23 22:01:58 修改

阅读量147

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉人工智能

于 2022-08-23 22:01:53 首次发布

原文链接：https://www.aminer.cn/research_report/6304c6f07cb68b460f0a1ed5

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# ACM MM 2022 | 统一归一化：加速Transformer工业部署的归一化方法

Transformer 这两年在 CV 任务上取得了广泛的应用和验证，其在工业界有着很强的部署和落地需求。对比 CNN 中的采用的 BN 归一化方式（BN 是非常高效的，在部署中可以吸收到卷积中），Transformer 中采用 LayerNorm 的归一化方式，对部署是非常不友好的。主要原因有两点：1）LN 需要在线计算过程，具体地，在线计算均值和方差；2）LN 的方差计算需要开方操作，这在某些部署平台上是非常低效的，甚至是不支持的。
那么直接在 Transformer 中将 LN 替换成 BN 怎么样呢？实验性的答案是性能会变差甚至训练会直接崩溃。其实这个问题很多同学都发现了，也都进行了讨论，transformer 为什么使用 layer normalization，而不是其他的归一化方法？深究其中的原因，我们是将其归结为 transformer 在训练过程中的激活值及其梯度的统计值异常问题（后面会详细讨论）。
对此的话，我们是提出了一种统一的归一化方法 Unified Normalization（UN），首先，它可以像 BN 一样是非常高效，能够被合并到相邻的线性操作中。其次，利用数据的先验统计信息，相较于 LN，它可以做到性能几乎相同或者很小的掉点。我们在机器翻译、图像分类、目标检测和图像分割等任务上都验证了其有效

论文题目：Unified Normalization for Accelerating and Stabilizing Transformers
详细解读：https://www.aminer.cn/research_report/6304c6f07cb68b460f0a1ed5https://www.aminer.cn/research_report/6304c6f07cb68b460f0a1ed5
AMiner链接：https://www.aminer.cn/?f=cs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。