Transformer架构深度研究报告（二、分层原理）-CSDN博客

本文链接：https://blog.csdn.net/jiaojieran/article/details/145809553

一、Transformer 不同层作用剖析

1.1 低层作用

在 Transformer 架构中，低层（1 - 3 层）主要承担着局部语法建模的关键任务，其对语言基础结构的理解和处理为后续高层语义分析奠定了坚实基础。

在词性标注（POS tagging）任务中，低层通过对相邻词之间关系的细致捕捉，能够精准判断每个词的词性。例如在句子 “The dog runs fast” 中，对于 “runs” 这个词，低层模型会关注其与相邻词 “dog” 的关系，基于英语语法中名词作主语、动词作谓语的规则，以及 “dog” 作为单数名词这一特征，准确判断 “runs” 为动词的第三人称单数形式。

在命名实体识别（NER）的实体边界检测方面，低层同样表现出色。以句子 “Apple is looking at buying U.K. startup for $1 billion” 为例，它可以通过关注 “Apple” 与周边词汇的紧密联系，以及 “Apple” 在常见语境中作为公司名称的高频出现模式，准确识别出 “Apple” 为一个命名实体，同时确定其边界范围。

从注意力模式来看，低层主要关注相邻词，这是其实现局部语法建模的重要方式。比如在处理形容词 - 名词组合时，像 “big house”，模型会使 “big” 的查询向量（Q）与 “house” 的键向量（K）高度相关，从而在计算注意力权重时，将更多的注意力分配到这两个相邻词上，凸显它们之间的修饰关系。在处理冠词 - 名词组合 “the book” 时亦是如此，通过对相邻词的重点关注，模型能够有效捕捉到这种常见的语法结构。

大量实验有力地证明了 Transformer 低层在局部语法建模任务上的卓越性能。以 BERT 模型为例，其第 1 层在 CoNLL - 2003 NER 任务上的 F1 分数可达 85%，这一成绩接近甚至在某些方面超越了专门为该任务设计的专用模型。这充分表明，Transformer 的低层在处理局部语法信息时，具备强大的能力和高效性，能够准确地提取和分析文本中的局部语法特征，为整个模型对语言的理解提供了可靠的基础。

1.2 中层作用

中层（4 - 8 层）在 Transformer 架构中扮演着句法语义整合的关键角色，其承上启下，将低层提取的局部语法信息进一步加工，为高层的全局推理和抽象提供更丰富、更结构化的语义表示。

在句法依存分析（Dependency Parsing）任务中，中层模型致力于揭示句子中各个词之间的句法依赖关系。以句子 “The boy with the book is reading” 为例，中层能够分析出 “reading” 与 “boy” 之间存在主谓关系，“book” 与 “with” 构成介词短语修饰 “boy”，通过这种方式构建出完整的句法结构树，清晰展示句子的语法层次和词间关系。

在语义角色标注（SRL）任务中，中层则专注于确定句子中每个谓词（通常是动词）的语义角色。比如在句子 “She gave the book to him” 中，中层模型可以准确判断出 “She” 是 “gave” 这个动作的施事者，“book” 是受事者，“him” 是接受者，从而明确每个词在语义层面的角色和功能。

中层的典型行为包括建立主谓一致关系。在句子 “The dogs are barking” 中，中层模型能够通过对 “dogs” 的复数形式以及 “are” 的形态变化的分析，准确建立起 “dogs” 与 “are” 之间的主谓一致关系，确保语法和语义的一致性。在解析介词短语依附关系时，如句子 “I saw the man with the telescope”，中层可以根据上下文和语义信息，消除 “with the telescope” 修饰 “man” 还是 “saw” 的歧义，明确其正确的语义指向。

通过可视化示例，可以更直观地了解中层的作用。以 BERT 模型第 5 层为例，在分析句子 “John ate an apple” 时，通过注意力机制的可视化，能够清晰地看到 “ate” 与 “John”（主语）、“apple”（宾语）之间存在较强的注意力关联，这表明中层在处理句子时，能够有效地捕捉到动词与主语、宾语之间的语义联系，实现句法语义的整合。

1.3 高层作用

高层（9 - 12 层）在 Transformer 架构中承担着全局推理与抽象的核心任务，其能够从宏观层面理解文本的深层含义，捕捉文本中的隐含逻辑和长距离依赖关系，实现对文本的全面、深入的理解。

在文本蕴含（Textual Entailment）任务中，高层模型需要判断一个文本片段是否蕴含另一个文本片段的含义。例如，对于句子对 “如果下雨，活动将取消” 和 “因为下雨，活动取消了”，高层模型能够通过对两个句子语义的分析和逻辑推理，判断出前一个句子蕴含了后一个句子的含义，准确识别出其中的因果逻辑关系。

在指代消解（Coreference Resolution）任务中，高层致力于解决文本中代词与先行词之间的指代关系。以句子 “Alice gave Bob a book. She smiled.” 为例，高层模型能够通过对上下文语义的理解，准确判断出 “She” 指代的是 “Alice”，成功消除指代歧义，使文本的语义更加连贯和清晰。

高层的关键能力在于理解隐含逻辑。在处理条件语句 “If it rains, the event will be canceled” 时，高层模型能够深入理解其中的逻辑关系，明确事件取消的条件是下雨，从而对文本中的逻辑内涵有准确的把握。在处理跨句指代问题时，如上述 “Alice gave Bob a book. She smiled.” 的例子，高层能够跨越句子边界，建立起代词与先行词之间的联系，实现对文本语义的连贯理解。

实验数据充分验证了高层在全局推理与抽象任务上的显著优势。以 BERT 模型为例，其第 12 层在 Winograd Schema 挑战集上的准确率比第 1 层高 22%。Winograd Schema 挑战集包含了大量需要复杂常识推理和语义理解的问题，第 12 层在该挑战集上的出色表现，充分证明了高层在处理复杂语义和进行深度推理方面的强大能力，能够有效应对需要全局理解和抽象思维的任务。

二、数学工具实现不同层作用的方式

2.1 数学原理

2.1.1 低层细节捕捉的数学形式

在 Transformer 架构中，低层编码器在捕捉局部语法特征时，主要依赖于局部注意力权重和前馈网络这两个关键的数学工具，它们相互协作，从不同角度对输入文本进行处理，实现对局部信息的有效提取。

局部注意力权重是低层捕捉局部语法特征的核心机制之一。在自注意力机制中，自注意力矩阵 $A^{(1)} \in R^{n \times n}$ 用于衡量输入序列中各个位置之间的关联程度。在低层，其权重分布呈现出显著的局部集中性，这一特性使得模型能够重点关注相邻词之间的关系。数学上表现为：当 $\leq k$ （局部窗口）时， $A_{i,j}^{(1)} \propto \exp(\frac{\langle Q_{i}^{(1)}, K_{j}^{(1)} \rangle}{\sqrt{d_k}})$ 。这意味着在局部窗口内，查询向量 $Q_{i}^{(1)}$ 与键向量 $K_{j}^{(1)}$ 的点积越大，对应的注意力权重 $A_{i,j}^{(1)}$ 就越高。例如，在处理句子 “The beautiful flower is red” 时，对于 “beautiful” 这个词，其查询向量 $Q_{i}^{(1)}$ 会与 “flower” 的键向量 $K_{j}^{(1)}$ 有较大的点积，经过上述公式计算后，“beautiful” 对 “flower” 的注意力权重会显著增大，从而突出了形容词 - 名词之间的修饰关系，有效捕捉到这种局部语法模式。

前馈网络在低层同样发挥着不可或缺的作用。低层的前馈网络通过 ReLU 激活函数对局部模式进行选择性增强。其数学表达式为 $FFN^{(1)}(x) = ReLU(xW_{1}^{(1)} + b_{1}^{(1)})W_{2}^{(1)} + b_{2}^{(1)}$ 。在这个式子中，权重矩阵 $W_{1}^{(1)} \in R^{d \times d_{ff}}$ 倾向于学习局部词组合的模板。以 “un -” 前缀与形容词的组合为例，当输入包含 “unhappy” 这样的词时，权重矩阵 $W_{1}^{(1)}$ 能够学习到 “un -” 与形容词之间的特定关系模式，经过 ReLU 激活函数的处理，会增强这种局部模式的表达，使得模型能够更好地识别和处理这类局部语法结构，进一步强化了对局部语法特征的捕捉能力。

2.1.2 高层整体建模的数学机制

高层编码器在构建全局语义表示时，主要依赖于长程注意力扩散和前馈网络的语义合成这两个关键的数学机制，它们从不同维度对输入信息进行整合和抽象，使得模型能够从宏观层面理解文本的深层含义。

长程注意力扩散是高层实现全局语义建模的重要方式。在自注意力机制中，高层的自注意力矩阵 $A^{(L)}$ 的权重分布相较于低层更加均匀，这使得模型能够实现长程依赖关系的捕捉，允许任意位置间的交互。从数学特性上看，通过熵值来衡量注意力分布的均匀程度，高层的熵值 $Entropy(A^{(L)})$ 大于低层的熵值 $Entropy(A^{(1)})$ 。高熵值表明高层注意力覆盖的范围更广，能够关注到跨句子指代、逻辑连接词等长距离的语义信息。例如，在处理篇章 “The policy caused economic decline. Consequently, public dissatisfaction grew.” 时，高层模型能够通过长程注意力扩散，使 “decline” 的查询向量 $Q_{i}^{(L)}$ 与远距离的 “dissatisfaction” 的键向量 $K_{j}^{(L)}$ 建立有效关联，从而理解这两个词之间的因果逻辑关系，尽管它们在文本中的位置相距较远。

前馈网络的语义合成是高层实现全局语义表示的另一个关键机制。高层的前馈网络通过非线性变换将分散的特征整合为抽象的语义。其数学表达式为 $FFN^{(L)}(x) = GeLU(xW_{1}^{(L)} + b_{1}^{(L)})W_{2}^{(L)} + b_{2}^{(L)}$ 。在这个过程中，权重矩阵 $W_{1}^{(L)}$ 的奇异值分布更平缓，这意味着它能够融合多维度的特征。例如，当处理与金融相关的文本时，涉及到 “投资”、“收益”、“风险” 等多个概念，权重矩阵 $W_{1}^{(L)}$ 可以将这些不同维度的特征映射到 “金融决策” 这一抽象概念上，通过 GeLU 激活函数的非线性变换，实现对这些分散特征的有效整合，从而构建出更抽象、更具全局性的语义表示，帮助模型从更高层次理解文本的语义内涵。

2.2 实现机制

2.2.1 自注意力的动态权重分配

在 Transformer 中，自注意力机制通过动态权重分配，在不同层实现了局部和全局关联的有效捕捉，这一过程依赖于查询向量 $Q$ 和键向量 $K$ 的夹角分布以及注意力权重的计算方式。

在低层，自注意力主要实现局部关联的稀疏激活。此时，查询向量 $Q^{(1)}$ 和键向量 $K^{(1)}$ 的夹角分布偏向于局部相似性，即当 $∣ i - j ∣$ 较小时， $\cos\theta(Q_{i}^{(1)}, K_{j}^{(1)}) \approx 1$ 。这种几何关系使得注意力权重聚焦于邻近位置。以句子 “She poured the water into the glass.” 为例，对于 “poured” 这个词，其查询向量 $Q_{poured}^{(1)}$ 与 “water”（ $j = i - 1$ ）和 “into”（ $j = i + 1$ ）的键向量 $K_{water}^{(1)}$ 、 $K_{into}^{(1)}$ 的夹角较小，点积 $Q_{poured}^{(1)}K_{water}^{{(1)}^T}$ 和 $Q_{poured}^{(1)}K_{into}^{{(1)}^T}$ 较大，经过 softmax 计算注意力权重后，“poured” 对 “water” 和 “into” 的注意力权重显著增大，分别为 0.6 和 0.3，而对其他位置的注意力权重则很小，类似卷积的局部滤波效果，有效捕捉了局部的语法和语义关系。

在高层，自注意力实现全局关联的稠密激活。高层的查询向量 $Q^{(L)}$ 和键向量 $K^{(L)}$ 的夹角分布更均匀，使得 $\cos\theta(Q_{i}^{(L)}, K_{j}^{(L)}) \approx Uniform(-1, 1)$ 。这意味着模型可以自由地关联任意位置，形成类似全连接图的交互模式。例如，在句子 “The algorithm achieved state - of - the - art results, which surprised even its creators.” 中，“surprised” 的查询向量 $Q_{surprised}^{(L)}$ 经过多层参数调整后，能够与远距离的 “algorithm”（ $j = i - 9$ ）和 “creators”（ $j = i + 3$ ）的键向量 $K_{algorithm}^{(L)}$ 、 $K_{creators}^{(L)}$ 建立高度相关的联系，其注意力权重分别为 0.4 和 0.5，而邻近词的注意力权重相对较低，约为 1.2 。这表明高层自注意力能够突破局部限制，实现对全局语义关系的有效捕捉，从而更好地理解文本中的长距离依赖和复杂语义。

2.2.2 残差连接的渐进式更新

残差连接是 Transformer 中实现渐进式更新的关键机制，它通过将每层的输入与变换结果进行线性叠加，使得模型在训练过程中能够逐步优化和调整，有效避免了梯度消失和梯度爆炸等问题，确保了模型的稳定性和有效性。

残差连接的基本形式为 $x^{(l + 1)} = x^{(l)} + Sublayer(x^{(l)})$ ，其中 $x^{(l)}$ 表示第 $l$ 层的输入， $Sublayer(x^{(l)})$ 表示第 $l$ 层的子层（如自注意力层或前馈网络层）对输入 $x^{(l)}$ 的变换结果。

在低层，更新幅度相对较大。初始层的 $Sublayer(x^{(1)})\|$ 较大，这是因为在模型训练初期，原始词嵌入中可能存在较多的偏差和噪声，需要通过较大幅度的更新来快速修正这些问题。以一个简单的文本分类任务为例，在处理输入文本时，低层的残差连接会对原始词嵌入进行较大程度的调整，使其能够更好地捕捉局部的语法和语义特征，为后续层的处理提供更准确的基础。例如，在判断句子 “This is a good book.” 的情感倾向时，低层会迅速调整词嵌入，突出 “good” 这个词与情感倾向相关的特征，从而对整体的情感判断产生较大影响。

在高层，更新幅度相对较小。深层的 $Sublayer(x^{(L)})\|$ 较小，此时模型已经在低层学习到了较为稳定的局部特征和模式，高层主要是在已有语义表示的基础上进行微调。例如，在处理一篇新闻报道时，高层会根据之前层提取的各种局部信息，对整体的语义表示进行细微的调整，以更好地理解文章的主题、立场和深层含义。在判断报道的真实性或可靠性时，高层会综合考虑各种语义信息，对已有的语义表示进行微调，而不是进行大幅度的改变，从而确保模型在全局语义理解上的准确性和稳定性。

2.2.3 参数空间的层次演化

在 Transformer 中，参数空间的层次演化体现在权重矩阵奇异值分布和梯度更新的层次差异上，这些差异反映了模型在不同层对局部和全局信息的学习和处理能力的变化，对模型的性能和效果有着重要影响。

从权重矩阵的奇异值分布来看，低层的权重矩阵 $W_Q^{(1)}$ 、 $W_K^{(1)}$ 的奇异值集中，主成分较少。这反映了低层对局部模式的强偏好，因为较少的主成分意味着模型主要关注少数几个关键的局部特征模式。例如，在处理语法结构时，低层能够专注于学习主谓一致、修饰关系等常见的局部语法规则，通过集中的奇异值分布，有效地捕捉和表示这些局部模式。

高层的权重矩阵 $W_Q^{(L)}$ 、 $W_K^{(L)}$ 的奇异值分散，主成分较多。这表明高层能够支持多样化的全局关系建模，因为较多的主成分可以表示更多维度的信息和更复杂的关系。在处理语义理解任务时，高层可以通过分散的奇异值分布，将不同的语义概念和关系映射到不同的主成分上，从而实现对全局语义的全面理解和建模。

在梯度更新方面，反向传播时，低层梯度 $\nabla W^{(1)}L$ 主要来自局部语法错误修正。当模型在低层处理句子时，如果出现主谓不一致等语法错误，梯度会根据这些错误信息进行更新，引导模型学习正确的局部语法规则。例如，在句子 “He go to school.” 中，“go” 的形式错误，模型会根据这个错误产生的梯度信号，调整低层的权重，以学习到 “he” 作为第三人称单数，后面的动词应该用 “goes” 这一正确的语法形式。

高层梯度 $\nabla W^{(L)}L$ 更多由全局语义误差驱动。当模型在处理篇章时，如果对整体的语义理解出现偏差，如在判断文本蕴含关系时出现错误，高层会根据这些全局语义误差产生的梯度信号，调整权重，以更好地理解和处理全局语义。例如，在判断句子对 “If it rains, the ground will be wet. The ground is wet.” 的蕴含关系时，如果模型判断错误，高层会根据这个语义误差产生的梯度，调整权重，学习到正确的逻辑推理关系，从而提高对全局语义的理解能力。

2.3 数学机制的统一解释

Transformer 的数学机制从多个维度实现了从局部到全局的连续性、层次化参数演化和动态特征重组，这些机制相互配合，使得模型能够高效地处理和理解文本信息。

通过 $\text{softmax}(\frac{QK^T}{\sqrt{d_k}})$ 的指数衰减特性，模型可自适应调节关注范围。在低层，当 $Q_i$ 与邻近位置的 $K_j$ 点积较大时，指数运算会显著放大这些位置的权重，导致注意力集中在局部。随着层数的增加， $Q$ 和 $K$ 向量在参数演化的作用下，与更多远距离的位置点积增大，经过 softmax 后，权重分布趋于平缓，实现从局部到全局的关注范围扩展。这种机制使得模型能够根据输入信息的特点，自动调整关注的重点，从局部细节逐步过渡到全局语义，体现了从局部到全局的连续性。

在层次化参数演化方面，低层权重矩阵主成分对应局部语法模式，如主谓一致、修饰关系等。这些主成分通过学习和捕捉局部语法特征，为模型提供了基础的语言结构理解能力。随着层数的增加，高层权重矩阵主成分对应全局语义模板，能够将不同的语义概念和关系进行整合和抽象，实现对全局语义的建模和理解。这种层次化的参数演化使得模型能够逐步提升对语言的理解能力，从局部的语法分析上升到全局的语义推理。

动态特征重组是通过残差连接实现的。残差连接使特征空间形成分形结构，每层在其父空间基础上扩展新维度。在模型训练过程中，每层的输出不仅包含了当前层对输入的变换结果，还保留了输入的原始信息，通过这种方式，模型能够在不同层逐步积累和整合信息，实现特征的动态重组。例如，在低层，模型主要关注局部语法特征，通过残差连接，将这些局部特征传递到高层，高层在已有局部特征的基础上，结合自身对全局语义的学习和理解，进一步扩展和重组特征，形成更全面、更抽象的语义表示。

三、Softmax 函数助力不同层作用的实现

3.1 数学本质：指数衰减控制注意力范围

在 Transformer 模型中，Softmax 函数在自注意力机制里起着关键作用，其核心在于通过指数衰减特性来有效控制注意力范围，实现从局部到全局的关注调节。自注意力权重的计算核心公式为：

$A_{i,j} = \text{softmax}\left( \frac{Q_i K_j^T}{\sqrt{d_k}} \right) = \frac{\exp\left( \frac{Q_i K_j^T}{\sqrt{d_k}} \right)}{\sum_{j' = 1}^{n} \exp\left( \frac{Q_i K_{j'}^T}{\sqrt{d_k}} \right)}$

其中，指数函数 $\exp(\cdot)$ 对输入值具有显著的非线性放大效应，这一特性在不同层中表现出不同的注意力聚焦模式。

在低层，呈现出局部聚焦模式。当查询向量 $Q_i$ 与邻近位置的键向量 $K_j$ 点积较大时，例如 $\leq 3$ ，指数运算会显著放大这些位置的权重。假设 $Q_iK_j^T = 5$ 而其他位置为 $0$ ，则 $\exp(5) \approx 148.4$ ，远高于 $\exp(0)=1$ 。经过 Softmax 函数的归一化处理后，该位置的注意力权重 $A_{i,j}$ 会远大于其他位置，使得注意力高度集中在局部。以句子 “She picked up the book” 为例，对于 “picked” 这个词，其查询向量 $Q_{picked}$ 与邻近的 “up” 和 “the” 的键向量点积较大，经过 Softmax 计算后，“picked” 对 “up” 和 “the” 的注意力权重会明显增大，从而突出了这些相邻词之间的局部语法和语义关系，有效捕捉到局部的动作和对象关系。

在高层，展现为全局扩散模式。当查询向量 $Q_i$ 与多个远距离的键向量 $K_j$ 点积均较大时，例如 $Q_iK_j^T \approx 2$ 对多个 $j$ ，指数运算会使权重分布趋于平缓。假设三个位置的 $QK^T$ 分别为 $2, 2, 2$ ，则每个位置的权重为 $\exp(2)/(3\exp(2)) = 1/3$ ，这表明模型的注意力能够分散到多个远距离位置，形成全局关注。例如在篇章 “The new policy was implemented. It aimed to boost economic growth. However, some side effects emerged.” 中，对于 “side effects” 这个词，其查询向量 $Q_{side effects}$ 在高层经过参数调整后，能够与远距离的 “new policy” 和 “economic growth” 的键向量点积较大，经过 Softmax 计算，这些远距离位置的注意力权重显著提升，使得模型能够捕捉到它们之间的逻辑关系，如政策实施与副作用、经济增长之间的因果和转折关系，实现对篇章全局语义的理解。

3.2 参数演化：Q/K 向量的层次化学习

Transformer 模型通过不同层的参数矩阵 $W_Q^{(l)}, W_K^{(l)}$ 逐步调整关注范围，这一过程体现了 Q/K 向量的层次化学习特性，对模型实现从局部到全局的语义理解起着关键作用。

在低层，参数矩阵 $W_Q^{(1)}, W_K^{(1)}$ 倾向于学习局部语法模式，如主谓一致、修饰关系等。从几何角度解释，低层的查询向量 $Q_i^{(1)}$ 和键向量 $K_j^{(1)}$ 的向量空间分布使得相邻位置的向量夹角较小，即余弦相似度高，这导致 $Q_iK_j^T$ 在局部较大。例如在句子 “The dog runs fast” 中，对于 “runs” 这个词，低层的参数矩阵会使得 “runs” 的查询向量 $Q_{runs}^{(1)}$ 与 “dog” 的键向量 $K_{dog}^{(1)}$ 高度对齐，因为在英语语法中，“dog” 作为单数主语，与 “runs” 存在主谓一致关系，这种局部语法模式被低层的参数矩阵学习和捕捉。同时，“runs” 的查询向量与 “fast” 的键向量也会有一定程度的对齐，以体现副词修饰动词的关系。

在高层，参数矩阵 $W_Q^{(L)}, W_K^{(L)}$ 主要学习语义关联模式，如指代消解、逻辑推理等。此时，高层的查询向量 $Q_i^{(L)}$ 的向量会旋转 / 拉伸到新的空间，使得与远距离但语义相关的键向量 $K_j^{(L)}$ 向量夹角减小。例如在段落 “The plan was ambitious. It required a large amount of investment. But the company didn’t have enough funds, so it was postponed. This disappointed the investors.” 中，对于 “This” 这个词，高层的参数矩阵会使 “This” 的查询向量 $Q_{This}^{(L)}$ 与远距离的 “the plan was postponed” 相关的键向量高度对齐，通过学习这种指代关系，模型能够准确理解 “This” 指代的是计划被推迟这一事件，从而实现对篇章语义的连贯理解。在处理逻辑推理关系时，如 “The weather was bad. Therefore, the outdoor activity was canceled.” 中，高层的参数矩阵会使 “canceled” 的查询向量与 “bad weather” 的键向量建立联系，学习到这种因果逻辑关系。

3.3 动态调节：注意力范围的自适应过程

Transformer 模型实现注意力范围自适应调节主要依赖于缩放因子 $\sqrt{d_k}$ 以及残差连接与层归一化的协同作用，这使得模型能够在不同层中灵活调整关注强度，有效处理不同层次的语义信息。

缩放因子 $\sqrt{d_k}$ 在注意力计算中起着至关重要的作用。根据向量点积方差公式 $\text{Var}(Q_iK_j^T) = d_k$ ，随着维度 $d_k$ 的增大， $QK^T$ 的方差会迅速增大。如果不进行缩放，softmax 的输入值可能会变得过大或过小，导致某些位置的指数值过大或过小，使得模型难以有效学习。通过缩放点积值 $\frac{QK^T}{\sqrt{d_k}}$ ，可以防止 $QK^T$ 的方差随维度 $d_k$ 增大而爆炸，将 softmax 的输入值稳定在合理范围（通常 [-5,5]）。这使得模型在不同层中能够根据输入信息的特点，灵活调整注意力权重，避免因数值问题导致的注意力偏差。

残差连接与层归一化的协同作用进一步增强了注意力范围的自适应调节能力。残差连接通过公式 $x^{(l+1)} = x^{(l)} + \text{Attention}(x^{(l)})$ ，保留了底层的局部信息，使得高层可以在已有局部信息的基础上逐步叠加全局信息。在处理句子 “The complex problem, which involved many factors, was finally solved by a creative solution.” 时，底层通过注意力机制捕捉到 “complex problem” 等局部信息，残差连接将这些信息传递到高层，高层在处理时可以基于这些局部信息，进一步关注 “creative solution” 以及它们之间的关系，实现从局部到全局的理解。

层归一化则对每层的输出进行归一化，公式为 $\hat{x} = \frac{x - \mu}{\sigma} \cdot \gamma + \beta$ ，其中 $\mu, \sigma$ 为均值和标准差， $\gamma, \beta$ 为可学习参数。它确保不同层的注意力权重分布尺度一致，避免深层网络因数值不稳定而破坏已学习的局部模式。假设某层输出 $x$ 的均值突然从 0 变为 5，未归一化时下一层的注意力权重计算可能会受到较大影响，导致模型学习不稳定；而归一化后， $\hat{x}$ 的均值仍接近 0，使得注意力权重计算更加稳定，模型能够持续有效地学习不同层次的语义信息。

3.4 实例验证：从局部到全局的注意力演变

通过具体句子在不同层的注意力示例，可以直观地验证 Softmax 函数在 Transformer 模型中从局部到全局的注意力演变过程，以及其对不同层作用实现的重要支持。

以低层注意力示例（第 3 层）来看，对于句子 “She poured the water into the glass.” ，在第 3 层，“poured” 的查询向量 $Q_{poured}$ 与 “water” ( $j = i - 1$ ) 和 “into” ( $j = i + 1$ ) 的键向量 $K_{water}$ 、 $K_{into}$ 高度相关。从数学角度分析， $Q_{poured}K_{water}^T = 4.2$ ， $Q_{poured}K_{into}^T = 3.8$ ，而其他位置的 $QK^T < 1$ 。经过 Softmax 函数计算，根据公式 $A_{i,j} = \frac{\exp\left( \frac{Q_i K_j^T}{\sqrt{d_k}} \right)}{\sum_{j' = 1}^{n} \exp\left( \frac{Q_i K_{j'}^T}{\sqrt{d_k}} \right)}$ ，局部位置的权重被指数放大。假设 $\sqrt{d_k}=1$ ，则 $A_{poured,water} = \frac{\exp(4.2)}{\exp(4.2) + \exp(3.8) + 余项}$ ，“poured” 对 “water” 的注意力权重约为 0.6，对 “into” 的注意力权重约为 0.3，而对其他位置的注意力权重则非常小。这表明在低层，模型主要关注相邻词之间的关系，通过 Softmax 函数的作用，有效地捕捉到了局部的动作与对象、动作与方向的语义关系。

再看高层注意力示例（第 10 层），对于句子 “The algorithm achieved state - of - the - art results, which surprised even its creators.” ，在第 10 层，“surprised” 的查询向量 $Q_{surprised}$ 与 “algorithm” ( $j = i - 9$ ) 和 “creators” ( $j = i + 3$ ) 的键向量 $K_{algorithm}$ 、 $K_{creators}$ 高度相关。经过多层参数调整后， $Q_{surprised}$ 已学习到与语义相关的远距离实体建立连接，其 $QK^T$ 值分别为 3.5 和 3.7，而邻近词的 $QK^T \approx 1.2$ 。同样经过 Softmax 函数计算，假设 $\sqrt{d_k}=1$ ， $A_{surprised,algorithm} = \frac{\exp(3.5)}{\exp(3.5) + \exp(3.7) + 余项}$
$ ，“surprised” 对 “algorithm” 的注意力权重约为 0.4，对 “creators” 的注意力权重约为 0.5，对邻近词的注意力权重相对较低。这充分说明在高层，模型能够通过 Softmax 函数的作用，突破局部限制，关注到远距离的语义相关信息，实现对句子全局语义的理解，如算法取得成果与创造者感到惊讶之间的逻辑关系。

3.5 数学视角的严格证明

从数学视角对 Transformer 中 Softmax 函数与层次学习的关系进行严格证明，主要体现在注意力熵的层次变化和参数空间的谱分析两个方面，这为模型从局部到全局的学习机制提供了坚实的理论依据。

在注意力熵的层次变化方面，定义注意力分布的熵值为 $H(A_i) = -\sum_j A_{i,j} \log A_{i,j}$ 。在低层，注意力权重集中在少数邻近位置，因此熵值较低。以第 3 层为例，假设某位置的注意力权重分布为 $A_{i, i - 1} = 0.6$ ， $A_{i, i + 1} = 0.3$ ，其他位置 $A_{i, j} = 0.1 / (n - 2)$ （ $n$ 为序列长度），则 $H(A_i^{(3)}) = -0.6\log0.6 - 0.3\log0.3 - (n - 2) \times \frac{0.1}{n - 2} \log\frac{0.1}{n - 2} \approx 1.2$ 。这表明在低层，模型的注意力主要聚焦在局部，对其他位置的关注较少。

在高层，注意力权重分散到多个远距离位置，熵值较高。以第 10 层为例，假设某位置的注意力权重分布较为均匀，如 $A_{i, j} = 0.1$ （ $j$ 为多个远距离位置），则 $H(A_i^{(10)}) = -n \times 0.1\log0.1 \approx 2.3$ （这里 $n$ 为参与计算的远距离位置数量）。高熵值表明高层的注意力覆盖范围更广，能够捕捉到更多远距离的语义关系，从而实现对全局语义的理解。

从参数空间的谱分析来看，对权重矩阵 $W_Q^{(l)}, W_K^{(l)}$ 进行奇异值分解（SVD）。在低层，前 2 个奇异值占总方差的 80%，这表明主成分明确，主要对应局部语法规则。例如，在处理语法结构时，这两个主成分可以分别对应主谓关系和修饰关系，模型通过学习这两个主成分，能够有效地捕捉和表示局部语法模式。

在高层，前 5 个奇异值仅占 60%，成分分散，这支持了多样化的全局关联。此时，模型可以通过多个主成分来表示不同的语义概念和关系，如因果关系、指代关系等。多个主成分的协同作用使得模型能够处理复杂的语义信息，实现对全局语义的全面理解和建模。

3.6 总结：指数衰减与层次学习的统一

Softmax 函数通过指数衰减特性和层次学习过程，实现了 Transformer 不同层的功能，在模型从局部到全局的语义理解中发挥了核心作用。

在底层，初始层的 Q/K 向量空间几何关系与 Softmax 函数的指数放大效应相结合，强制模型关注邻近位置。由于底层参数矩阵 $W_Q^{(1)}, W_K^{(1)}$ 倾向于学习局部语法模式，使得查询向量 $Q_i^{(1)}$ 和键向量 $K_j^{(1)}$ 在局部位置的点积较大，经过 Softmax 函数的指数运算，这些局部位置的注意力权重被显著放大，从而实现了对局部语法和语义关系的有效捕捉。

在高层，深层参数将 Q/K 投影到新空间，使得远距离语义相关位置的 $QK^T$ 值增大。随着层数的增加，参数矩阵 $W_Q^{(L)}, W_K^{(L)}$ 学习到语义关联模式，查询向量 $Q_i^{(L)}$ 能够与远距离的语义相关键向量 $K_j^{(L)}$ 建立联系，其点积增大。经过 Softmax 函数的作用，这些远距离位置的权重被提升至显著水平，实现了对全局语义关系的捕捉。

整个过程中，Transformer 模型无需人工设计局部窗口或全局连接，完全通过梯度下降自动学习不同层次的 Q/K 投影矩阵。在训练过程中，模型根据损失函数的反馈，通过梯度下降不断调整参数矩阵，使得 Q/K 向量能够学习到不同层次的语义模式。Softmax 函数的指数特性与梯度下降学习过程相配合，自然实现了关注范围的分层扩展，使得模型能够像人类理解语言一样，先构建局部语法结构，再逐步整合全局语义信息，最终实现深层次的上下文理解。

四、Transformer 分层的必要性

4.1 概述

Transformer 的分层结构具有诸多显著优势，这些优势使其在处理自然语言等序列数据时表现卓越，成为当前深度学习领域的重要架构。

从分工效率角度来看，Transformer 的分层结构实现了高效的任务分工。低层专注于捕捉文本中的细节信息，如词法和局部语法特征。在处理句子 “我喜欢吃苹果” 时，低层能够精准识别每个词的词性，“我” 是代词，“喜欢” 是动词，“吃” 是动词，“苹果” 是名词，同时关注相邻词之间的关系，如 “喜欢” 和 “吃” 的语义关联。而高层则专注于整体语义的理解和抽象，能够把握句子在篇章中的上下文关系和逻辑含义。在一篇关于水果喜好的文章中，高层可以理解 “我喜欢吃苹果” 这句话与其他句子之间的逻辑联系，判断其是作为个人喜好的陈述，还是对某种水果受欢迎程度的举例。这种分工明确的方式避免了信息过载，使得模型能够更高效地处理不同层次的信息。

渐进抽象是 Transformer 分层结构的另一个重要优势。通过非线性变换，模型能够逐层组合特征，类似于计算机视觉中 CNN 从边缘到纹理再到物体的特征提取过程。在 Transformer 中，低层提取的词法和局部语法特征为中层提供了基础，中层在此基础上进行句法和语义的整合，构建出更复杂的语义结构。对于句子 “那个穿着红色衣服的女孩在公园里快乐地玩耍”，中层可以分析出 “穿着红色衣服的女孩” 是一个名词短语，“在公园里快乐地玩耍” 是动词短语，从而明确句子的句法结构。高层则进一步将这些语义结构整合为更抽象的语义表示，理解整个句子所表达的场景和情感。

从物理类比的角度来看，Transformer 的分层结构如同光学透镜系统。每层就像一个透镜，聚焦于不同的 “焦平面”，处理不同层次的信息。底层透镜聚焦于近处的细节，中层透镜聚焦于稍远处的结构，高层透镜则聚焦于更宏观的整体。最终，这些不同层次的信息经过整合，就像透镜系统合成清晰图像一样，使得模型能够全面、准确地理解文本的含义。这种类比形象地说明了 Transformer 分层结构如何协同工作，实现对文本的深度理解。

4.2 为什么不能只用一层

Transformer 不能只用一层，这是由其在信息存储和处理能力上的局限性所决定的，同时也得到了大量实验数据的有力佐证。

从表征容量瓶颈来看，单层 Transformer 无法同时存储词法、句法、语义等多级信息。在自然语言处理中，词法信息涉及单词的形态、词性等，句法信息关注句子的结构和语法规则，语义信息则涵盖句子的含义和上下文关系。这些信息具有不同的层次和复杂度，需要不同的处理机制和表示方式。对于一个复杂的句子，如 “那个在昨天会议上提出创新方案的年轻科学家，因其卓越的贡献而受到了广泛的赞誉”，其中包含了丰富的词法信息，如 “科学家” 的词性为名词，“提出” 为动词；句法信息，如 “在昨天会议上提出创新方案” 是一个复杂的定语修饰 “科学家”；语义信息，如整个句子表达了对科学家的赞扬以及原因。单层 Transformer 难以同时对这些不同层次的信息进行有效的存储和处理，无法满足自然语言处理任务的需求。

在处理长距离依赖方面，即使使用自注意力机制，单层 Transformer 也难以迭代修正远距离关联。在包含嵌套从句的句子中，“我知道那个说他会完成任务的人，尽管他面临很多困难，但他总是很努力”，其中 “那个说他会完成任务的人” 是一个嵌套从句，“人” 和 “完成任务” 之间存在长距离依赖关系。单层 Transformer 在处理这样的句子时，由于缺乏多层之间的逐步学习和信息传递机制，很难准确捕捉和处理这种长距离依赖，导致对句子的理解出现偏差。

大量实验结果也充分证明了单层 Transformer 的局限性。将 BERT - 12 压缩为 1 层后，在 SQuAD 问答任务上的 EM 分数从 80.8% 暴跌至 47.2%。SQuAD 问答任务需要模型理解文本的语义，并根据问题准确提取答案，这对模型的信息处理能力要求较高。单层 Transformer 在该任务上的大幅性能下降，表明其无法像多层 Transformer 那样有效地处理复杂的语义信息和长距离依赖，进一步说明了多层结构对于 Transformer 模型的重要性。

五、不在低层直接关注全局的原因

5.1 层次化语义建模的生物学与认知学基础

人类语言理解天然具有层次性，这为 Transformer 的分层结构提供了重要的生物学与认知学基础。在人类的语言处理过程中，视觉皮层首先识别字母和局部词形，将字母组合成单词，听觉皮层则处理音素和音节，这类似于 Transformer 的低层，专注于学习词性标注、局部依存关系等基础信息。在识别单词 “apple” 时，视觉皮层会将字母 “a”“p”“p”“l”“e” 组合成该单词，同时听觉皮层会处理其发音，而 Transformer 的低层也会关注单词的词性、与相邻词的修饰关系等。

中层的句法分析器建立短语结构，如动词短语、名词短语，对应 Transformer 中层捕捉短语级结构，如介词短语修饰动词。在句子 “run fast” 中，人类的句法分析器会识别出 “run fast” 是一个动词短语，Transformer 的中层也会捕捉到这种短语级的结构关系。

高层的语义网络连接远距离概念，实现因果关系、指代消解等复杂语义理解，如同 Transformer 高层建立段落级逻辑，实现事件因果链的理解。在篇章 “The boy fell down because he tripped on a stone. He started to cry.” 中，人类能够理解 “he” 指代 “the boy”，以及摔倒和哭泣之间的因果关系，Transformer 的高层同样致力于实现这种跨句指代和逻辑关系的理解。

若强行让 Transformer 的第一层直接学习全局注意力，就相当于要求人类在识别字母时直接理解整篇文章的深层含义，这在生物学和工程实现上均不可行。因为人类的认知过程是逐步从低级的感知信息处理过渡到高级的语义理解，Transformer 的分层结构正是对这种自然认知过程的模拟，通过逐层处理和抽象，能够更有效地理解和处理语言信息。

5.2 优化动力学：梯度传播的可行性

在 Transformer 的训练过程中，梯度传播的可行性是一个关键因素，它直接影响模型的学习效果和收敛速度。若在低层就直接关注全局，会面临梯度消失与爆炸问题，以及信息瓶颈导致的优化困难。

当尝试直接初始化全局关注权重时，假设所有位置的 $QK^T$ 值均较大，例如 $QK^T \approx 3$ ，则 softmax 输出接近均匀分布，即实现全局关注。但此时在计算梯度时，损失函数对 $Q$ 、 $K$ 的梯度为 $\frac{\partial \mathcal{L}}{\partial Q_i} = \sum_j (A_{i,j} - y_{i,j}) K_j$ ，其中 $y_{i,j}$ 是目标分布。由于 $A_{i,j}$ 接近均匀分布，梯度信号会被稀释，导致参数更新方向不明确。在一个文本分类任务中，如果模型在低层就试图全局关注，对于句子 “我喜欢苹果，因为它很甜”，在判断情感倾向时，由于梯度信号的稀释，模型难以准确调整参数来学习 “喜欢” 与 “甜” 之间的语义关联，从而影响对句子情感倾向的判断。

局部关注作为优化锚点，对模型的有效训练至关重要。实验表明，若强制低层使用局部窗口，如仅关注前后 3 个词，模型收敛速度可提升约 30%。这是因为过早的全局注意力会导致底层特征混杂噪声，高层难以提取有效模式。从数学角度分析，设输入序列包含噪声 $\epsilon \sim \mathcal{N}(0, \sigma^2)$ ，若第一层即全局关注，噪声传播到输出的方差为 $\text{Var}(x^{(1)}) = \sigma^2 \sum_{j} A_{i,j}^2 \approx \sigma^2 \cdot \frac{1}{n}$ （均匀分布时）；而局部关注（如窗口大小 $w = 5$ ）时， $\text{Var}(x^{(1)}) = \sigma^2 \cdot \frac{1}{w}$ 。当 $\gg w$ 时，局部关注显著降低噪声放大效应。在处理包含噪声的文本数据时，局部关注能够使模型更专注于局部的有效信息，减少噪声对模型学习的干扰，为高层的语义理解提供更可靠的基础。

5.3 Softmax 的指数衰减与初始化敏感度

Softmax 函数的指数衰减特性对 Transformer 在不同层实现局部到全局的关注范围调节起着关键作用，同时也决定了在低层直接关注全局的不可行性，这体现在理论分析和实际初始化效果两个方面。

从理论分析来看，假设理想情况下希望所有位置的注意力权重相等，即 $A_{i,j} = 1/n$ ，根据 softmax 的计算原理，这要求 $\frac{Q_i K_j^T}{\sqrt{d_k}} = \ln\left( \frac{1}{n} \right) + C$ ，其中 $C$ 为常数，进一步推导可得 $Q_i K_j^T = \sqrt{d_k} \left( \ln\left( \frac{1}{n} \right) + C \right) \quad \forall j$ 。在实际的参数初始化中，要满足所有 $K_j$ 与 $Q_i$ 的点积严格相等几乎是不可能的，因为这在高维空间中的概率趋近于零。在一个具有 100 个词的句子中，若要实现全局均匀关注，需要精确调整 $Q$ 和 $K$ 向量，使得每个词与其他所有词的点积都满足特定的等式，这在实际的模型训练中极难实现。

在实际初始化效果方面，使用标准初始化方法，如 Xavier 初始化时， $Q_i$ 和 $K_j$ 的初始点积服从均值为 0、方差为 $d_k$ 的正态分布。此时 softmax 的注意力权重天然偏向少数随机较大的点积值，即呈现局部聚焦模式。以 $d_k = 64$ 为例，随机初始化的 $Q_i$ 、 $K_j$ 点积标准差为 8（ $\sqrt{d_k} = 8$ ）。若某位置 $j$ 的 $Q_iK_j^T = 5$ ，其他位置为 0，则 $A_{i,j} = \frac{e^{5/8}}{e^{5/8} + (n - 1)e^{0}} \approx \frac{1.9}{1.9 + (n - 1)}$ ，当 $n = 10$ 时， $A_{i,j} \approx 17\%$ ，仍有一定集中性，但远未达到全局均匀分布。这表明在实际初始化条件下，模型更倾向于先关注局部信息，而不是直接实现全局关注。

5.4 计算复杂度与稀疏性约束

在 Transformer 中，计算复杂度和稀疏性约束是限制在低层直接关注全局的重要因素，这涉及到理论复杂度限制和信息过载与特征筛选两个关键方面。

从理论复杂度限制来看，全局注意力的计算复杂度为 $O(n^2 d_k)$ ，其中 $n$ 为序列长度， $d_k$ 为键向量的维度。在处理长序列时，如 $n = 4096$ ，这种计算复杂度是难以承受的。在实际工程中，为了降低计算量，低层常采用局部注意力或稀疏模式。采用局部窗口的方式，限制每个位置仅关注前后 $w = 256$ 个词，此时计算复杂度可降至 $O(n w d_k)$ 。这种方式在保证一定信息处理能力的同时，大大减少了计算量。还可以采用层级扩展的策略，低层处理局部信息，随着层数的增加，高层逐步扩大窗口，从而平衡计算效率与模型效果。在处理一篇长文档时，低层可以先关注每个段落内的局部信息，到高层再逐步整合不同段落之间的关系，实现对文档全局的理解。

从信息过载与特征筛选的角度来看，认知科学表明人类工作记忆容量有限，约为 7±2 个组块。类似地，神经网络的低层若直接接收全局信息，可能面临特征过载的问题。在低层，模型应优先过滤无关信息，保留局部关键特征，如动词 - 宾语关系。在句子 “他吃苹果” 中，低层主要关注 “吃” 和 “苹果” 之间的关系，提取这种局部关键信息。而高层则在精简后的特征基础上整合全局上下文，如篇章主题。在处理一篇关于水果喜好的文章时，高层会结合各个句子中提取的局部信息，如不同人对不同水果的喜好，来理解整个篇章的主题是关于水果喜好的讨论。这种分层处理的方式能够使模型更有效地处理信息，避免因信息过多而导致的学习困难。

5.5 实验证据与消融研究

通过层间注意力模式可视化和强制全局初始化的失败案例等实验证据与消融研究，可以有力地验证 Transformer 分层的必要性，以及在低层直接关注全局的不可行性。

对 BERT - base 的注意力头进行可视化，结果清晰地展示了不同层注意力模式的变化。在 Layer 1，80% 的头聚焦于当前位置 ±3 个词内，这表明低层主要关注局部信息，能够有效捕捉相邻词之间的语法和语义关系。在句子 “我喜欢红色的苹果” 中，Layer 1 会重点关注 “喜欢” 与 “红色”“苹果” 之间的局部联系。随着层数的增加，到 Layer 6，约 50% 的头开始关注句法相关远距离词，如主谓一致。在句子 “The dog runs fast” 中，Layer 6 能够关注到 “dog” 和 “runs” 之间的主谓一致关系，尽管它们在序列中并非相邻。到 Layer 12，30% 的头明确捕捉跨句指代，如 “it→前述名词”。在篇章 “Tom bought a book. It is very interesting.” 中，Layer 12 能够准确识别 “it” 指代 “book”，实现跨句指代的理解。这种层间注意力模式的变化，充分说明了 Transformer 分层结构能够逐步从局部信息处理过渡到全局语义理解。

在强制全局初始化的失败案例中，将前 3 层的 $W_Q$ 、 $W_K$ 初始化为单位矩阵，使所有位置的 $QK^T$ 相同，理论上应产生均匀注意力。但实际结果却导致训练崩溃，损失函数停滞不降，最终准确率比标准初始化低 58%。通过梯度分析发现，反向传播时，梯度矩阵秩仅为 2，表明参数更新陷入低维流形，无法有效学习。这一实验结果表明，在低层直接强制全局关注会破坏模型的正常学习过程，进一步证明了 Transformer 分层结构的合理性和必要性。

5.6 工程实践中的渐进式训练策略

现代大规模预训练模型常采用课程学习（Curriculum Learning）策略，这是一种渐进式训练策略，能够间接实现从局部到全局的关注，使模型在训练过程中逐步学习和适应不同层次的任务。

在训练初期，模型通过掩码语言模型（MLM）任务，被迫先学习局部上下文预测。在这个阶段，模型会被给定一个包含掩码词的句子，如 “我喜欢 [MASK] 水果”，模型需要根据上下文预测出掩码词。通过这种方式，模型能够专注于学习局部上下文信息，如 “喜欢” 与周围词的语义关系，从而建立起对局部语法和语义的理解。

随着训练的进行，在训练中期，任务逐渐加入长距离依赖，如句子顺序预测。此时，模型会被给定一组打乱顺序的句子，要求判断句子的正确顺序。在处理句子组 “苹果是一种水果。它富含维生素。人们喜欢吃苹果。” 时，模型需要学习句子之间的逻辑关系，判断出正确的顺序，这引导高层注意力学习全局关联，提高对长距离依赖关系的理解能力。

在训练后期，微调阶段引入特定全局任务，如文本摘要。模型会根据给定的长文本生成简短的摘要，这需要模型综合考虑文本的全局信息，进一步强化高层注意力机制。在处理一篇新闻报道时，模型需要提取关键信息，生成准确的摘要，从而实现对文本全局的理解和概括。

这种渐进式训练策略符合 Transformer 分层结构的特点，能够使模型逐步学习和适应不同层次的任务，从局部信息处理逐渐过渡到全局语义理解，提高模型的学习效果和性能。

5.7 结论：层次化注意力是必然而非选择

综上所述，Transformer 的层次化注意力是其有效处理序列数据的关键设计，具有多方面的必然性。

从数学约束来看，Softmax 的指数衰减特性与高维空间几何性质，使得均匀全局注意力在初始化时几乎不可能实现。这是由于 softmax 函数对输入的非线性变换，以及 $Q$ 和 $K$ 向量在高维空间中的复杂关系，导致在初始化时难以使所有位置的注意力权重相等，实现全局均匀关注。

在优化需求方面，梯度传播的有效性要求低层先学习局部稳健模式，作为高层复杂推理的基础。如果在低层就直接关注全局，会导致梯度消失、爆炸或混淆等问题，使得模型无法有效学习。局部关注能够为梯度传播提供稳定的基础，使模型能够逐步学习和优化。

计算现实也是层次化注意力的重要决定因素。全局注意力的计算复杂度迫使模型分层处理信息，逐步提炼抽象特征。在处理长序列数据时，全局注意力的高计算复杂度会导致计算资源的巨大消耗，而分层处理能够在保证模型效果的前提下，降低计算成本，提高计算效率。

从认知仿生的角度，层次化处理符合人类语言理解的生物学机制，使模型具备更强的可解释性和泛化能力。人类在理解语言时，也是从低级的感知信息逐步过渡到高级的语义理解，Transformer 的分层结构模拟了这一过程，能够更好地处理和理解自然语言。

因此，Transformer 模型必须通过多层堆叠和参数渐进学习，才能有效协调局部与全局信息的整合。这种设计不是工程上的妥协，而是深度学习模型在处理序列数据时的最优解之一，能够使模型在自然语言处理等任务中取得优异的性能。

六、梯度传播有效性与 Transformer 分层的关系

6.1 梯度传播有效性的核心要素

梯度传播的有效性在 Transformer 模型的训练中起着至关重要的作用，它包含三个关键目标：梯度稳定性、信息保真度和参数更新效率。

梯度稳定性要求梯度值需保持在合理范围内，通常在 $10^{-6} \sim 10^1$ 区间。这是因为如果梯度消失，即梯度值趋近于 0，在反向传播过程中，底层参数将无法得到有效的更新，模型难以学习到数据中的特征和模式。当处理一个包含复杂语义的句子时，若底层梯度消失，模型将无法捕捉到词汇之间的语法和语义关系，导致对句子的理解出现偏差。相反，如果梯度爆炸，即梯度值趋近于无穷大，会使参数更新步长过大，导致模型训练不稳定，损失函数剧烈震荡甚至发散。在训练一个文本分类模型时，若出现梯度爆炸，模型的参数可能会在更新过程中发生剧烈变化，无法收敛到一个有效的解，从而无法准确地对文本进行分类。

信息保真度指梯度应携带足够的信息量，能准确反映参数对损失函数的贡献方向。在 Transformer 模型中，不同层的参数对损失函数的贡献是不同的。低层参数主要负责捕捉局部语法和语义信息，高层参数则侧重于全局语义和逻辑关系的理解。因此，梯度需要准确地传递这些信息，以便模型能够根据不同层的任务需求，对参数进行合理的更新。在处理一个包含指代关系的句子时，梯度应能够准确地反映出高层参数在处理指代消解任务中的作用，使模型能够学习到正确的指代关系，避免出现指代错误。

参数更新效率要求梯度应引导参数朝着损失函数下降最快的方向更新，而非陷入局部极小或震荡。在训练过程中，模型通过不断调整参数来最小化损失函数。如果梯度不能引导参数朝着最优方向更新，模型可能会陷入局部极小值，无法找到全局最优解。在一个情感分析任务中，若模型陷入局部极小值，可能会导致对某些情感倾向的判断出现偏差，无法准确地识别文本中的情感。梯度的震荡也会使模型的训练过程变得不稳定，增加训练时间和计算资源的消耗。

6.2 梯度传播失效的典型场景

在 Transformer 模型的训练过程中，梯度传播可能会出现失效的情况，其中梯度消失、梯度爆炸和梯度混淆是三种典型的场景，它们会对模型的性能和训练效果产生严重的负面影响。

梯度消失是指在深层网络中，反向传播的梯度幅值逐层指数级衰减。从数学角度来看，设网络第 $l$ 层的梯度为 $\frac{\partial \mathcal{L}}{\partial W^{(l)}}$ ，若激活函数导数的平均绝对值为 $\alpha \lt 1$ ，则经过 $L$ 层后梯度衰减为 $\alpha^L$ 。例如，当 $\alpha = 0.9$ ， $L = 50$ 时， $\alpha^L \approx 0.005$ ，几乎无法更新底层参数。在 Transformer 中，若低层注意力权重无法获得有效梯度，模型将无法学习局部语法模式，导致高层语义理解失去基础。在处理句子 “我喜欢吃苹果，因为它很甜” 时，由于梯度消失，低层无法学习到 “喜欢” 和 “吃” 之间的语义关联，以及 “它” 指代 “苹果” 的关系，使得高层在理解整个句子的因果逻辑时出现困难。

梯度爆炸则是指梯度幅值逐层指数级增长，引发数值溢出。若权重矩阵 $W$ 的最大奇异值 $\sigma_{\text{max}} \gt 1$ ，则梯度在反向传播中按 $\sigma_{\text{max}}^L$ 增长。例如， $\sigma_{\text{max}} = 1.2$ ， $L = 50$ 时，梯度放大倍数达 $1.2^{50} \approx 9100$ ，远超浮点数表示范围。这会导致参数更新步长过大，使得损失函数剧烈震荡甚至发散。在训练一个机器翻译模型时，若出现梯度爆炸，模型的参数会在更新过程中发生剧烈变化，无法稳定地学习到源语言和目标语言之间的映射关系，从而导致翻译质量严重下降。

梯度混淆是指不同参数的梯度方向相互矛盾，导致整体更新效率低下。可以通过定义梯度夹角余弦 $\cos\theta_{ij} = \frac{g_i \cdot g_j}{\|g_i\| \|g_j\|}$ 来度量，若平均余弦值接近 0，表明梯度方向高度不一致。在 Transformer 的多头注意力机制中，若各头的梯度方向冲突，模型难以协调不同注意力模式的学习。在处理一个包含多种语义关系的句子时，不同头的梯度方向相互矛盾，使得模型无法有效地整合这些语义关系，从而影响对句子的理解。

6.3 Transformer 保障梯度传播有效性的方法

Transformer 通过多种机制来保障梯度传播的有效性，这些机制相互配合，确保模型在训练过程中能够稳定地学习和优化，有效避免梯度消失、梯度爆炸和梯度混淆等问题。

残差连接是 Transformer 中保障梯度传播有效性的关键机制之一。其机制为每层的输出为 $x^{(l + 1)} = x^{(l)} + F(x^{(l)})$ ，其中 $F$ 为自注意力或前馈网络。在反向传播时，梯度可沿两条路径传递： $\frac{\partial \mathcal{L}}{\partial x^{(l)}} = \frac{\partial \mathcal{L}}{\partial x^{(l + 1)}} \left( I + \frac{\partial F(x^{(l)})}{\partial x^{(l)}} \right)$ 。这意味着即使 $\frac{\partial F}{\partial x^{(l)}}$ 的雅可比矩阵接近零矩阵，梯度仍可通过恒等映射 $I$ 无损传递。实验证据表明，移除残差连接后，Transformer 在 IWSLT14 德英翻译任务上的 BLEU 值从 34.2 降至 21.7，这充分验证了残差连接对梯度稳定性的关键作用。在翻译句子 “我喜欢苹果，因为它们很甜” 时，残差连接能够确保梯度在各层之间稳定传递，使模型能够学习到 “喜欢”“苹果”“甜” 之间的语义关系，从而准确地进行翻译。

层归一化也是保障梯度传播有效性的重要方法。它对每层的输出进行归一化： $\hat{x} = \frac{x - \mu}{\sigma} \cdot \gamma + \beta$ ，其中 $\mu, \sigma$ 为均值和标准差， $\gamma, \beta$ 为可学习参数。层归一化使每层的输入分布保持稳定，减少 Internal Covariate Shift。它能够限制梯度幅值的波动范围，将激活值约束在 [-2,2] 区间，同时缓解梯度对参数初始化的敏感性。假设某层输出 $x$ 的均值突然从 0 变为 5，未归一化时下一层的梯度可能剧烈变化；归一化后， $\hat{x}$ 的均值仍接近 0，梯度更新更平稳。在处理一个包含大量词汇的文本时，层归一化能够确保模型在不同层对词汇的处理保持稳定，使梯度能够有效地传递，从而准确地提取文本的语义信息。

注意力机制的梯度特性也对梯度传播有效性起到了重要作用。Softmax 梯度计算中，注意力权重 $\text{softmax}(S)$ 的梯度为 $\frac{\partial A_i}{\partial S_j} = A_i (\delta_{ij} - A_j)$ ，其中 $QK^T / \sqrt{d_k}$ 。当 $A_i$ 接近 0 或 1 时，即局部聚焦模式，梯度幅值较小，更新平缓；当 $A_i$ 分布均匀时，即全局模式，梯度幅值较大，促进参数调整。这种自适应调节使得低层倾向于局部聚焦，参数微调，高层逐渐转向全局，参数显著更新，形成自然的课程学习过程。在处理句子 “我今天去了公园，看到了美丽的花朵和可爱的小动物” 时，低层通过局部聚焦模式，学习到 “去”“公园”“花朵”“小动物” 等词汇之间的局部语义关系，梯度更新平缓；高层则通过全局模式，学习到整个句子所表达的场景和情感，梯度更新较大，从而实现对句子的全面理解。

合理的参数初始化策略同样不可或缺。Xavier/Glorot 初始化中，权重矩阵 $\in \mathbb{R}^{d_{\text{in}} \times d_{\text{out}}}$ 的初始化方差为 $\text{Var}(W_{ij}) = \frac{2}{d_{\text{in}} + d_{\text{out}}}$ ，确保前向传播激活值和反向传播梯度的方差保持一致。在自注意力中，合理的 $W_Q, W_K, W_V$ 初始化可防止 $QK^T$ 的初始值过大或过小，避免 Softmax 过早陷入饱和区，从而保证梯度的有效性。在训练一个文本生成模型时，合理的参数初始化能够使模型在训练初期就能够有效地学习到词汇之间的关系，为后续的训练奠定良好的基础。

6.4 梯度传播有效性的量化评估

为了准确评估 Transformer 中梯度传播的有效性，可采用梯度范数分析、梯度相关性度量和参数更新比率等量化方法，这些方法从不同角度反映了梯度传播的状态，有助于判断模型训练的稳定性和有效性。

梯度范数分析通过定义各层梯度矩阵的 Frobenius 范数 $\|G^{(l)}\|_F = \sqrt{\sum_{i,j} (G^{(l)}_{i,j})^2}$ 来评估梯度传播的有效性。在理想情况下，各层梯度范数应处于同一数量级。若低层梯度范数显著小于高层，表明存在梯度消失问题。在一个多层 Transformer 模型中，若第 1 层的梯度范数为 $10^{-5}$ ，而第 10 层的梯度范数为 $10^{-2}$ ，则说明第 1 层可能存在梯度消失，底层参数无法得到有效更新，模型在学习底层特征时会遇到困难。

梯度相关性度量通过计算相邻层梯度向量的余弦相似度 $\cos\theta^{(l)} = \frac{\langle \text{vec}(G^{(l)}), \text{vec}(G^{(l + 1)}) \rangle}{\|G^{(l)}\|_F \|G^{(l + 1)}\|_F}$ 来评估梯度传播的一致性。较高的余弦相似度（如 $\gt 0.3$ ）表明梯度传播方向一致，反之则可能存在梯度混淆。在训练过程中，如果相邻层的梯度余弦相似度为 0.1，远低于正常范围，说明梯度传播方向不一致，不同层之间的参数更新可能相互矛盾，影响模型的学习效果。

参数更新比率通过统计训练过程中各层参数的相对更新量 $r^{(l)} = \frac{\| \Delta W^{(l)} \|_F}{\| W^{(l)} \|_F}$ 来评估梯度传播对参数更新的影响。深层网络的低层参数应有 $r^{(l)} \approx 10^{-3} \sim 10^{-2}$ ，过高可能预示梯度爆炸，过低可能预示梯度消失。在一个 Transformer 模型中，若某层的参数更新比率达到 $10^{-1}$ ，远高于正常范围，说明该层可能出现了梯度爆炸，参数更新步长过大，导致模型训练不稳定；若参数更新比率为 $10^{-5}$ ，远低于正常范围，则可能存在梯度消失，参数几乎无法更新。

6.5 案例分析：梯度传播失效的后果

通过具体案例分析梯度传播失效的后果，能够更直观地理解其对 Transformer 模型的严重影响，以及采取有效措施保障梯度传播有效性的重要性。

以移除残差连接的 Transformer 为例，在 WMT14 英德翻译任务上进行实验。标准 Transformer 在该任务上的训练损失在迭代 10k 步时为 2.1，BLEU 值为 28.4；而移除残差连接的 Transformer 不收敛，损失大于 100，BLEU 值为 0.0。对梯度进行分析发现，无残差连接时，第 1 层的梯度范数仅为标准模型的 $10^{-6}$ 倍，底层参数几乎无法更新。在翻译句子 “Das Buch ist interessant”（这本书很有趣）时，由于梯度消失，底层无法学习到词汇之间的语法和语义关系，导致模型无法准确地将其翻译成英语，严重影响了翻译质量。

在错误初始化导致梯度爆炸的案例中，将 $W_Q, W_K$ 初始化为单位矩阵的 10 倍（ $W = 10 I$ ），其他部分保持标准初始化。在训练过程中，前向传播时 $QK^T$ 值过大，如达到 $10^4$ 量级，导致 Softmax 输出接近 one - hot 分布。反向传播时梯度幅值超过 $10^{10}$ ，触发数值溢出。这使得模型无法正常训练，无法学习到有效的语义表示。在处理一个情感分析任务时，由于梯度爆炸，模型的参数在更新过程中发生剧烈变化，无法准确地判断文本的情感倾向。

为了解决这些问题，在移除残差连接的情况下，需要重新设计网络结构，引入其他机制来保障梯度传播的有效性；在错误初始化导致梯度爆炸的情况下，采用缩放点积 $QK^T / \sqrt{d_k}$ 并将初始化缩放因子调整为 $\sqrt{d_k}$ ，以确保 $QK^T$ 值在合理范围内，避免梯度爆炸。

6.6 总结：梯度传播有效性的工程意义

梯度传播有效性在 Transformer 模型的工程实践中具有极其重要的意义，它是模型可训练性的基石，是层次化学习的保障，也是创新设计的指导原则。

梯度传播有效性是模型可训练性的基石。只有当梯度能够有效传播时，深度神经网络，尤其是 Transformer 这类超深模型的参数才能被正确优化。在实际应用中，无论是自然语言处理任务，如文本分类、机器翻译，还是计算机视觉任务，如图像识别、目标检测，都依赖于模型能够通过梯度传播来学习数据中的特征和模式。如果梯度传播失效，模型将无法收敛，无法达到预期的性能指标，使得这些应用无法实现。

梯度传播的有效性使得低层可以先学习局部特征，如词性标注、局部语法关系等，高层再逐步整合全局语义，如篇章逻辑、语义推理等。这一过程依赖于梯度信号从高层到低层的连贯传递。在处理一篇新闻报道时，低层通过有效传播的梯度学习到词汇的词性和局部语法结构，高层在此基础上，利用梯度传递的信息，学习到文章的主题、立场和深层含义，从而实现对整个报道的全面理解。

残差连接、层归一化、缩放点积等 Transformer 核心组件，本质上都是为维护梯度传播有效性而设计的工程解决方案。理解这些机制的原理，有助于针对特定任务优化模型架构。在设计一个针对医学文本处理的 Transformer 模型时，可以根据任务的特点，如医学术语的复杂性、语义关系的特殊性，对这些组件进行调整和优化，以提高模型的性能和效果。通过合理地运用这些机制，能够更好地满足不同任务的需求，推动深度学习技术在各个领域的应用和发展。