文献总结：Transformers without Normalization

最新推荐文章于 2025-06-18 11:26:26 发布

会编程的加缪

最新推荐文章于 2025-06-18 11:26:26 发布

阅读量1.2k

点赞数 26

CC 4.0 BY-SA版权

文章标签：论文笔记 transformer

本文链接：https://blog.csdn.net/m0_47211450/article/details/146404601

Transformers without Normalization

1. 创新点（contribution）
2. DyT为何能取代Layer-Norm层
- 2.1 Transformer中原来的Nomalization层用的什么？
- 2.2 Layer-Norm 输入输出映射形状
3. 如何用Tanh完成LN层的取代？
4. 取代之后效果如何？
5. 本文的局限性

今天给大家分享一篇来自Meta FAIR实验室的作品，作者中包含了何恺明(Kaiming He)和杨立坤(Yann Lecun)两位深度学习领域大佬！项目地址为：https://jiachenzhu.github.io/DyT/

在这里插入图片描述

1. 创新点（contribution）

本文提出Dynamic Tanh（DyT）技术，实现无需归一化层训练Transformer，挑战了传统认知，为神经网络研究带来新方向，具体创新点如下：

（1）提出DyT替代归一化层：引入DyT（Dynamic Tanh）作为归一化层的直接替代方案，其定义为 $DyT(x)=\gamma * tanh (\alpha x)+\beta$ 。通过可学习参数 $\alpha$ 缩放输入，利用 $t anh$ 函数压缩极端值，模仿归一化层行为，且无需计算激活统计量。实验表明，使用 $Dy T$ 的Transformer在多种任务和领域中，能达到甚至超越使用归一化层的模型性能，且大多无需调整超参数。

（2）揭示归一化层行为机制：研究发现归一化层（如LN）的输入输出映射类似 $t anh$ 函数的S形曲线。在深层LN层，这种非线性映射明显，会压缩极端值，使大部分值处于近似线性范围。同时，LN按token进行归一化，不同token的线性变换在整体上呈现出非线性的 $t anh$ 形曲线。这一发现为提出 $Dy T$ 提供了灵感，也深化了对归一化层在神经网络中作用的理解。

（3）验证DyT在多领域有效性：在多个领域的多种任务中对DyT进行验证。在视觉领域，涵盖监督学习（如ViT和ConvNeXt在ImageNet-1K分类任务）、自监督学习（如MAE和DINO）以及扩散模型（如DiT）；在语言模型领域，对LLaMA不同规模模型进行预训练；在语音领域，对wav2vec 2.0模型进行预训练；在DNA序列建模领域，对HyenaDNA和Caduceus模型进行预训练。结果表明，DyT在这些任务中均能保持与使用归一化层相当的性能。

（4）分析DyT特性与优势：对DyT的计算效率、组成部分（ $t anh$ 函数和 $a lp ha$ ）进行分析。计算效率方面，以LLaMA 7B模型为例，DyT层相比RMSNorm层显著减少推理和训练时间。消融实验表明， $t anh$ 函数对稳定训练至关重要， $a lp ha$ 对提升模型性能不可或缺，且 $a lp ha$ 在训练中跟踪激活的 $1/ s t d$ ，与输入激活的 $1/ s t d$ 强相关。

（5）对比其他去归一化方法优势：将DyT与其他训练无需归一化层的方法（如基于初始化的Fixup、SkipInit和基于权重归一化的 $s i g ma R e p a r am$ ）对比。在不同ViT - 基任务中，DyT始终优于这些方法，证明其在去除归一化层的情况下，能更有效地实现稳定训练和良好性能。

2. DyT为何能取代Layer-Norm层

2.1 Transformer中原来的Nomalization层用的什么？

Transformer架构¹如下，作者在每个子层中都采用了残差连接和进行层归一化，即每个子层的输出都是 $L a yer N or m (x + S u b l a yer (x))$ ：
在这里插入图片描述

Transformer中，使用了Layer Nomalization（LN）作为归一化层，采用的Layer Nomalization的对比如下所示，具体分析可以见其他作者的博客²。同时，作者对比了Transformer为什么要使用Layer Normalization，而不使用Batch Normalization，两者区别可以从图中可以看出来：

Batch Normalization（BN）: 是对于每个维度上统计所有样本的值，计算均值和方差，BN在每个维度上分布是稳定的。卷积神经网络中使用的是BN。
Layer Normalization（LN）: 是在每个样本上统计所有维度的值，计算均值和方差，LN在每个样本上分布是稳定的。Transformer中主要使用的是LN与root mean square normalization(RMSNorm)。

2.2 Layer-Norm 输入输出映射形状

作者在不同数据集上，训练了计算机视觉领域经典模型vision transformer model(ViT), 语言领域经典模型wav2vec 2.0 Large Transformer model 和生成领域经典模型diffusion transformer(DiT),并输出了在归一化操作之前与归一化操作之后的数据。结果如下图所示，横轴是归一化层的输入，纵轴是其输出。
在这里插入图片描述
作者发现，归一化层前数据的输入到输出的映射随着归一化层深度的不同，有所变化，层数较浅时，输入输出映射是线性的，层数较深时有点像 $t anh$ 函数的S型曲线。由于标记具有不同的均值和标准差数值，这种线性关系并非在输入张量的所有激活值上都整体成立。尽管如此，让作者感到惊讶的是，实际的非线性变换与一个经过缩放的双曲正切函数高度相似。
在这里插入图片描述

3. 如何用Tanh完成LN层的取代？

为了取代LN层，作者提出了一个动态 $t anh$ 函数，即DyT（Dynamic tanh）:
$Dyt(x)=\gamma * tanh(\alpha x)+\beta$
作者通过设计一个可学习的缩放函数 $\alpha$ 来使 $Dy T$ 学习不同输入函数的缩放， $\gamma$ 和 $\beta$ 也是可学习的，用来帮助函数输出回到任意的尺度。

算法伪代码如下：

# input x has the shape of [B, T, C]
# B: batch size
# T: tokens
# C: dimension
class DyT(Module):
	def __init__(self, C, init_alpha):
		super().__init()
		self.alpha = Parameter(ones(1) * init_alpha)
		self.gamma = Parameter(ones(C))
		self.beta = Parameter(zeros(C))
	
	def forward(self, x):
		x = tanh(self.alpha * x)
		return self.gamma * x + self.beta

4. 取代之后效果如何？

作者做了大量的实验来证明 $Dy T$ 效果，涉及从监督学习到自监督学习，从视觉任务，到自然语言处理，再到生成任务，效果表明，取代后 $Dy T$ 与 $L N$ 效果差不多，一些任务上略好
在这里插入图片描述

但是 $Dy T$ 大大提升了训练和推理的效率：

通过与其他取代归一化层的方法比较，证明了该方法优越性能：