一文彻底搞懂Transformer - Add & Norm（残差连接和层归一化）

最新推荐文章于 2025-04-15 11:54:45 发布

喝不喝奶茶丫

最新推荐文章于 2025-04-15 11:54:45 发布

阅读量1w

点赞数 31

文章标签： transformer 深度学习人工智能语言模型大模型大模型微调大语言模型

本文链接：https://blog.csdn.net/2401_85377976/article/details/141423008

版权

Transformer

在Transformer模型中，Add & Norm（残差连接和层归一化）是两个重要的组成部分，它们共同作用于模型的各个层中，以提高模型的训练效率和性能。

Add & Norm（残差连接和层归一化）

一、Add（残差连接）

********网络退化****************：************网络退化（Degradation）是深度学习中一个常见的现象，特别是在构建深层神经网络时更为显著。********它指的是在网络模型可以收敛的情况下，随着网络层数的增加，网络性能先增加后迅速下降的现象。****

这种现象并不符合常理，因为更深的网络结构通常被认为应该表现得更好。

例如，一个56层的深层网络在测试集上的错误率有时会高于一个20层的浅层网络，且这并非数据问题导致。即使在训练集上，深层网络的表现也不如浅层网络，这种现象称为“网络退化”。

网格退化

Add（残差连接）： 残差连接（Residual Connection）或跳跃连接（Skip Connection）最早由何凯明等人在2015年提出的ResNet（Residual Network）中引入，成为了解决深层网络网格退化的一种有效方法。

残差连接在构建深层神经网络时，被视为一种有效的兜底策略。 当网络已经达到或接近其性能的最优解时，如果继续增加网络深度（即添加更多的层），这些新增的层（被视为冗余层）不应该对网络的性能产生负面影响。

Skip connections的实现方式通常是将某一层的输出（通常经过一个恒等映射或简单的线性变换）直接加到下一层（或更深层）的输出上。 这样，网络的输出就可以表示为输入的非线性变换与输入的线性叠加，即y = F(x) + x，其中F(x)表示输入x经过一系列非线性变换后的输出，x表示直接传递的输入。

skip connections

例如：模型一共56层，若第20层时模型已经充分学习达到测试集最佳效果，则让从21层开始到第56层学习一种恒等变换，在最后一层将第20层的输出恒等映射出来。

Add（残差连接）

残差网络： 残差网络（ResNet）通过残差连接，使得输入信息可以直接跨越一层或多层，与后续层的输出相加，从而缓解了深层网络中的梯度消失和梯度爆炸问题，使得网络可以扩展到更深的层数。**

梯度消失：在深层网络中，梯度需要通过多个层次进行反向传播。根据链式法则，梯度在传播过程中会不断相乘，当层数较多时，梯度值可能会以指数形式衰减并趋近于零，导致梯度消失。
梯度爆炸：深层网络中的梯度在传播过程中也可能因链式法则的连乘效应而迅速增长，甚至呈指数级增长，导致网络参数更新过大，网络不稳定。

ResNet-50模型在当年的ImageNet比赛中获得了第一名，其准确率相比前一年的获胜者提高了3.6%。

ResNet-50的网络架构如下：

输入处理： 输入数据首先经过一个卷积层和一个最大池化层进行预处理，以提取初步的特征并降低空间维度。
残差阶段： 经过预处理后，数据进入多个阶段（stage），每个阶段包含多个残差块。
输出层： 经过多个stage的残差学习后，网络通过一个全局平均池化层来减少空间维度并提取全局特征。这些特征被送入一个全连接层，用于输出最终的预测结果。

残差网络ResNet-50

二、Norm（层归一化）

归一化（Normalization）： 一种数据预处理技术，旨在通过线性或非线性变换，将输入数据或神经网络层的输出数据映射到一个特定的数值范围或分布之中。这一处理过程对于提升神经网络训练过程的稳定性、加速收敛速度以及最终提高模型性能至关重要。

在神经网络中，常见的归一化方法包括 ：

批归一化（Batch Normalization）： 它通过在每个批次中对输入数据进行规范化，使其均值为0、方差为1，从而加速网络的收敛过程，降低网络对初始化和学习率的敏感性，同时也有一定的正则化效果。
层归一化（Layer Normalization）： 与批归一化不同，它在每层中对所有样本的输出进行规范化，而不是对每个批次进行规范化。层归一化在处理序列数据等不适合批处理的情况下，可以作为替代方案使用。
组归一化（Group Normalization）： 组归一化是一种介于批归一化和层归一化之间的方法，它将输入数据分成多个小组，然后对每个小组内的样本进行归一化，从而减小小组之间的相关性，提高网络的学习能力。

归一化

Norm（层归一化）：Transformer使用的是层归一化， 通过对层内所有神经元的输出进行归一化处理，使得输出的分布具有稳定的均值和方差。

在Transformer中，层归一化通常是在残差连接之后进行，主要用于解决内部协变量偏移问题，即减少层与层之间数据分布的差异，从而加速训练过程。

层归一化会对残差连接后的输出进行归一化处理，然后使用可学习的参数（如beta和gamma）对归一化后的输出进行缩放和平移。这样既可以保持数据的分布稳定性，又可以保留一定的灵活性

beta参数：

作用：beta参数在层归一化中起到平移的作用。它允许模型对归一化后的输出进行上下平移，以调整数据的均值。
影响：通过调整beta的值，可以改变归一化后数据的分布中心，使得模型能够更好地适应数据的特性，提高模型的表达能力和泛化能力。

gamma参数：

作用：gamma参数在层归一化中起到缩放的作用。它允许模型对归一化后的输出进行缩放，以调整数据的方差或幅度。
影响：通过调整gamma的值，可以控制归一化后数据的尺度，使得模型能够学习到更加抽象和复杂的特征表示。

层归一化

基本上所有的归一化技术，都可以概括为如下的公式：

对于隐层中某个节点的输出，即激活值a，进行非线性变换（如ReLU、tanh等）后得到h。

层归一化的过程就是先计算这一层所有激活值的均值μ和方差σ²，然后使用这些统计量对h进行分布调整。 这种调整就是把“高瘦”和“矮胖”的都调整回正常体型（深粉色），把偏离x=0的拉回中间来（淡紫色）。

层归一化

三、Transformer残差连接和层归一化

Add & Norm： 在Transformer中，Add & Norm（残差连接和层归一化）通常作为一个整体单元出现在Encoder和Decoder的每一层中。

Add & Norm（残差连接和层归一化）

在Transformer架构中，残差连接是每个编码器和解码器层的重要组成部分。每个子层（如自注意力层和前馈神经网络层）的输出都会与其输入相加，形成残差连接。

每个层都会先进行自注意力机制或交叉注意力机制的处理（对于Decoder来说），然后进行残差连接和层归一化。 接着，再进行前馈神经网络的处理，并再次进行残差连接和层归一化。 这样的设计使得Transformer模型同时利用残差连接和层归一化的优点，能够有效地处理长序列数据，并在自然语言处理任务中取得了显著的成功。

Add & Norm（残差连接和层归一化）

在大模型时代，我们如何有效的去学习大模型？

现如今大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也_想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把都打包整理好，希望能够真正帮助到大家_。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。