Transformers without Normalization paper笔记

最新推荐文章于 2025-12-19 15:31:04 发布

原创

最新推荐文章于 2025-12-19 15:31:04 发布 · 958 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

paper主要提出了在transformer中替代layer norm的方案，dynamic tanh函数，它是逐元素计算的，避免了layer norm在计算中需要计算channel整体的均值，方差，进行reduce和broad cast计算，天然并行，且硬件友好。
这篇论文专注于 Transformer 中的 LayerNorm 替代，不涉及 CNN 中使用的 BatchNorm 或其他归一化方法。DyT 的设计完全围绕“token 向量级别的标准化”，所以在 CNN 上并不适用。

先复习一下什么是layer norm.

Transformer 中输入通常是：[B, T, C]
B: batch size (样本数）
T: token个数（LLM中是词数，图像中是patch数）
C: channel, 在token中指的是向量维度，也就是embedding dim.

layer norm是对每个 token 的向量 [C] 做归一化，即对最后一个维度做均值/方差计算。

输入形状： [B, T, C]
LayerNorm 就是对每个 [x_t1, x_t2, ..., x_tC] 做归一化
                            ↑
                          每个 token 的 channel 向量

layer norm原理：
在这里插入图片描述
下面进入DyT的介绍，也就是paper部分，然后讨论为什么DyT比layer norm更快。

Abstract

归一化层在现代神经网络中无处不在，长期以来被认为是不可或缺的。
本研究表明，即使不使用归一化层，Transformer 也能通过一种非常简单的技术达到相同甚至更好的性能。
我们提出了一种逐元素操作，称为 Dynamic Tanh（DyT），其形式为：
DyT(x)=tanh(αx)
它可直接替代 Transformer 中的归一化层。

DyT 的灵感来自这样一个观察：在 Transformer 中，LayerNorm 的输入输出关系常常呈现类似 tanh 的 S 形曲线。通过使用 DyT，不含归一化层的 Transformer 模型在各种任务和设置下都能达到甚至超越原有性能，且几乎无需调参。