RealFormer: 残差式 Attention 层的Transformer 模型

最新推荐文章于 2025-03-16 14:30:02 发布

NLP论文解读

最新推荐文章于 2025-03-16 14:30:02 发布

阅读量904

点赞数 1

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/NLPlunwenjiedu/article/details/122821305

版权

本文提出了RealFormer，一种在Transformer结构中引入残差Attention的改进模型，旨在增强模型性能和训练稳定性。RealFormer在预训练和下游任务上均优于Post-LN和Pre-LN结构，尤其是在有限的训练资源下仍能取得优秀效果。通过量化分析，证明了RealFormer的注意力矩阵更稀疏和强关联，有助于正则化和模型的鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©原创作者 | 疯狂的Max

01 背景及动机

Transformer是目前NLP预训练模型的基础模型框架，对Transformer模型结构的改进是当前NLP领域主流的研究方向。

Transformer模型结构中每层都包含着残差结构，而残差结构中最原始的结构设计是Post-LN结构，即把Layer Norm (LN) 放在每个子层处理之后，如下图Figure 1(a)所示；而其他的一些预训练模型如GPT-2，则将LN改到每个子层处理之前，被定义为Pre-LN，如下图Figure 1(b)，有论文[5]结果表明“Pre-LN”对梯度下降更加友好，收敛更快，更易于超参优化，但其性能总差于“Post-LN”。

为解决这个问题，本文作者提出 RealFormer 模型（Residual Attention Layer Transformer），如下图Figure 1(c)所示，将残差结构运用到attention层，使得模型对训练超参更具鲁棒性的同时，保证模型性能的提升。

而残差结构来源于图像领域经典的Resnet模型[6]，可以有效解决深层神经网络中的梯度弥散/扩散和网络退化的问题[7]，NLP领域Transformer经典结构[2]同图像领域模型一样，也拥有“窄而深”的模型，因此也当然可以通过残差结构来达到优化网络的目的，这也是Transformer结构中本身就设计了残差结构的原因。

具体来说，RealFormer相较于前面提到的两种结构（“Pre-LN”和“Post-LN”）不同在于，模型在每层中计算所有头的attention score时，加上了残差结构，即本层的attention score加上之前层的attention score。

值得注意的是，直接在attention计算时增加跳连连接并不会增加指数级的运算量，因此其效率是相对可观的。