Transformer数学推导——Q43 证明相对位置编码在因果掩码下的对称性破坏现象

最新推荐文章于 2025-05-04 16:55:47 发布

墨顿

最新推荐文章于 2025-05-04 16:55:47 发布

阅读量993

点赞数 12

文章标签： transformer 深度学习人工智能位置编码

本文链接：https://blog.csdn.net/pzccool/article/details/147657860

版权

该问题归类到Transformer架构问题集——位置编码——相对位置编码。请参考LLM数学推导——Transformer架构问题集。

在自然语言处理的奇妙领域中，Transformer 模型凭借其独特的架构成为当之无愧的 “明星”，而相对位置编码作为其中的关键技术，如同为模型赋予了感知文本顺序的 “特殊能力”。当我们引入因果掩码这一 “特殊规则” 时，相对位置编码的特性会发生有趣的变化 —— 对称性破坏现象由此产生。接下来，我们将像侦探一样，抽丝剥茧，一步步深入分析这一现象背后的原理。

1. 相对位置编码与因果掩码背景知识

1.1 相对位置编码

传统的绝对位置编码就像是给文本中的每个位置都发放了一张独一无二的 “身份证”，通过固定的向量来表示每个位置。但这种方式在处理长距离依赖或复杂语义关系时存在局限性。相对位置编码则另辟蹊径，它关注的是文本中位置之间的相对关系，比如两个词在句子中的前后顺序、相隔距离等。通过这种方式，模型能够更好地理解文本的结构和语义，就像我们阅读文章时，会自然地关注句子中词语之间的相对位置来理解含义一样。

在计算注意力分数时，相对位置编码通常会引入一个与位置相对关系相关的偏置项。例如，在一个简单的公式中，注意力分数 $A_{ij}$ 的计算可能会考虑查询向量 $\mathbf{q}_i$ 、键向量 $\mathbf{k}_j$ 以及相对位置偏置 $b_{ij}$ ，公式类似这样： $A_{ij}=\frac{\text{exp}((\mathbf{q}_i\cdot\mathbf{k}_j + b_{ij})/\sqrt{d_k})}{\sum_{k = 1}^{n}\text{exp}((\mathbf{q}_i\cdot\mathbf{k}_k + b_{ik})/\sqrt{d_k})}$ ，其中 $d_k$ 是键向量的维度，n 是序列的长度。这个偏置项 $b_{ij}$ 就是相对位置编码的核心体现，它根据位置 i 和 j 的相对关系来调整注意力分数，让模型更加关注与当前位置相关的信息。

1.2 因果掩码

因果掩码在自然语言处理中扮演着 “时间卫士” 的角色，尤其是在文本生成任务中。它的作用是确保模型在生成当前位置的内容时，只能利用该位置之前的信息，而不能 “偷看” 未来的信息。这就好比我们在写作时，只能基于已经写好的内容来构思接下来的句子，而不能提前知道后面还没写的内容。

在实际计算中，因果掩码通常表现为一个上三角矩阵（在不考虑填充的情况下）。当计算注意力分数时，对于被掩码的位置，会将其对应的分数设置为一个非常小的值（通常是负无穷），经过 softmax 函数后，这些位置的注意力权重几乎为 0，从而实现了 “屏蔽未来信息” 的效果。例如，在生成一个句子时，当模型处理到第 i 个词时，因果掩码会阻止模型关注第 i + 1，i + 2 等后续位置的信息，保证生成过程符合因果逻辑。

2. 相对位置编码在因果掩码下的对称性破坏现象分析

2.1 对称性的定义与理想情况

在相对位置编码中，我们所说的对称性是指位置对 (i, j) 和 (j, i) 之间的某种等价关系。理想情况下，如果相对位置编码具有对称性，那么从位置 i 关注位置 j 和从位置 j 关注位置 i 时，模型所利用的位置信息应该是相似的，或者说它们对注意力分数的影响是对称的。例如，在一个简单的句子中，“我喜欢苹果”，如果我们考虑 “我” 和 “苹果” 这两个位置，对称性意味着模型在计算它们之间的注意力关系时，无论从 “我” 的角度看 “苹果”，还是从 “苹果” 的角度看 “我”，所依据的位置编码规则应该是相同的，不会出现偏向。

2.2 因果掩码对对称性的破坏过程

当引入因果掩码后，情况发生了变化。我们以一个包含 n 个位置的序列为例，假设我们要分析位置 i 和 j（i < j）的关系。

在没有因果掩码时，计算注意力分数 $A_{ij}$ 和 $A_{ji}$ ，相对位置编码根据它们之间的相对距离等因素生成偏置 $b_{ij}$ 和 $b_{ji}$ ，如果满足一定条件，可能存在 $b_{ij}=b_{ji}$ ，从而使得 $A_{ij}$ 和 $A_{ji}$ 在一定程度上具有对称性。

然而，在因果掩码下，当计算 $A_{ij}$ 时（i < j），模型可以正常利用位置 i 及之前的信息，相对位置编码能够按照规则生成相应的偏置 $b_{ij}$ ，参与注意力分数的计算。但当计算 $A_{ji}$ 时，由于因果掩码的限制，位置 j 不能关注位置 i 之后的信息（因为 j > i ，从 j 看向 i 时， i 属于 “未来” 信息），此时相对位置编码在生成 $b_{ji}$ 时所依据的条件与生成 $b_{ij}$ 时不同。

具体来说，因果掩码改变了位置之间的信息交互方式。原本在无掩码情况下，位置对 (i, j) 和 (j, i) 的信息流动是对称的，但因果掩码切断了从后往前的信息传递路径。这就好比在一个城市中，原本双向通行的道路，因为某种规则变成了单向通行，导致从不同方向出发看到的 “风景”（即模型获取的信息）完全不同。

从数学角度看，假设相对位置编码的偏置 $b_{ij}$ 是基于位置 i 和 j 的相对距离 $d = |i - j|$ 以及其他因素（如位置的层级等）计算得到的。在因果掩码下，虽然相对距离 d 不变，但由于信息的单向流动，其他影响因素发生了改变，使得 $b_{ij}\neq b_{ji}$ ，进而导致 $A_{ij}$ 和 $A_{ji}$ 不再具有对称性，即相对位置编码的对称性被破坏。

2.3 具体案例分析

我们以一个简单的句子生成任务为例，句子为 “我喜欢阅读书籍”，假设我们关注 “喜欢”（位置 i）和 “书籍”（位置 j，且 j > i）这两个位置。

在没有因果掩码时，计算从 “喜欢” 关注 “书籍” 的注意力分数 $A_{ij}$ ，相对位置编码根据它们之间的距离（假设相隔 2 个位置）和其他规则生成偏置 $b_{ij}$ 。当计算从 “书籍” 关注 “喜欢” 的注意力分数 $A_{ji}$ 时，相对位置编码同样依据距离等因素生成偏置 $b_{ji}$ ，如果相对位置编码具有对称性，那么 $b_{ij}=b_{ji}$ ，二者的注意力分数计算方式在位置编码层面是对称的。

但在因果掩码下，当计算 $A_{ij}$ 时，模型可以利用 “我喜欢” 的信息，正常计算偏置 $b_{ij}$ 。而当计算 $A_{ji}$ 时，因为因果掩码的限制，“书籍” 不能关注 “喜欢” 之后的信息（在生成过程中，“喜欢” 属于 “未来” 信息），此时相对位置编码在计算 $b_{ji}$ 时，由于信息缺失，生成的偏置与 $b_{ij}$ 不同，导致 $A_{ij}$ 和 $A_{ji}$ 的计算结果不再对称。例如，可能原本在无掩码时 $A_{ij}$ 和 $A_{ji}$ 都比较高，表示二者关联紧密，但在因果掩码下， $A_{ji}$ 变得很低，因为 “书籍” 无法获取足够的关于 “喜欢” 的信息来建立强关联。

3. 数学证明过程

3.1 符号定义与假设

设序列长度为 n ，查询向量为 $\mathbf{q}_i$ ，键向量为 $\mathbf{k}_j$ ，相对位置编码的偏置为 $b_{ij}$ ，注意力分数为 $A_{ij}$ ，满足公式 $A_{ij}=\frac{\text{exp}((\mathbf{q}_i\cdot\mathbf{k}_j + b_{ij})/\sqrt{d_k})}{\sum_{k = 1}^{n}\text{exp}((\mathbf{q}_i\cdot\mathbf{k}_k + b_{ik})/\sqrt{d_k})}$ 。

假设在无因果掩码时，相对位置编码满足某种对称性条件，即对于任意位置 i 和 j ，存在函数关系使得 $b_{ij}=f(|i - j|)$ 且 $b_{ji}=f(|j - i|)$ ，此时 $b_{ij}=b_{ji}$ （因为 $|i - j| = |j - i|$ ）。

3.2 因果掩码下的公式推导

引入因果掩码矩阵 M ，其元素 $M_{ij}$ 满足：当 $i \geq j$ 时， $M_{ij}=0$ ；当 $i < j$ 时， $M_{ij}=1$ 。

在因果掩码下，注意力分数 $A_{ij}$ 的计算变为 $A_{ij}=\frac{\text{exp}((\mathbf{q}_i\cdot\mathbf{k}_j + b_{ij})/\sqrt{d_k}) \cdot M_{ij}}{\sum_{k = 1}^{n}\text{exp}((\mathbf{q}_i\cdot\mathbf{k}_k + b_{ik})/\sqrt{d_k}) \cdot M_{ik}}$ 。

对于位置对 (i, j)（i < j），计算 $A_{ij}$ 时， $M_{ij}=1$ ，正常计算偏置 $b_{ij}$ 。计算 $A_{ji}$ 时， $M_{ji}=0$ ，这意味着 $A_{ji}$ 的计算中，来自位置 j 对位置 i 的关注被完全屏蔽（因为乘以 0），即使不考虑偏置 $b_{ji}$ 的变化，仅从掩码的角度， $A_{ij}$ 和 $A_{ji}$ 就已经不相等。

再看偏置 $b_{ij}$ 和 $b_{ji}$ ，由于因果掩码改变了位置之间的信息交互，假设相对位置编码的计算依赖于位置 i 和 j 之间的信息传递路径以及其他位置的上下文信息。在因果掩码下，从 i 到 j 和从 j 到 i 的信息传递路径不同（一个是正常传递，一个被截断），导致计算 $b_{ij}$ 和 $b_{ji}$ 所依据的信息不同。

例如，假设 $b_{ij}$ 的计算不仅依赖于 |i - j| ，还依赖于位置 i 到 j 之间所有位置的某种特征总和 $S_{ij}$ ，即 $b_{ij}=g(|i - j|, S_{ij})$ ；而 $b_{ji}$ 依赖于 |j - i| 和位置 j 到 i 之间所有位置的特征总和 $S_{ji}$ ，即 $b_{ji}=g(|j - i|, S_{ji})$ 。在因果掩码下，因为信息传递的单向性， $S_{ij}\neq S_{ji}$ ，所以 $b_{ij}\neq b_{ji}$ 。

综合以上两点，无论是从掩码对注意力分数计算的直接影响，还是从偏置计算的变化来看，都可以得出在因果掩码下，相对位置编码的对称性被破坏，即 $A_{ij}\neq A_{ji}$ 。

4. 在 LLM 中的实际影响与应用体现

4.1 文本生成任务

在像 GPT 系列这样的大语言模型进行文本生成时，因果掩码下相对位置编码的对称性破坏现象具有重要意义。由于模型在生成每个词时只能利用前文信息，这种不对称性使得模型能够更好地遵循文本的因果逻辑。

例如，当生成一个故事时，模型在生成当前情节时，会根据前文已经生成的内容（通过相对位置编码结合因果掩码来获取信息），更加合理地构建后续情节。如果相对位置编码保持对称性，模型可能会错误地参考 “未来” 情节信息，导致故事逻辑混乱。而对称性破坏确保了模型只能基于已有的 “历史” 信息进行创作，使得生成的文本更加连贯、符合逻辑。

4.2 问答系统

在问答系统中，当模型处理问题并生成答案时，也会受到这种现象的影响。因果掩码和不对称的相对位置编码帮助模型专注于问题中的关键信息以及前文的上下文（如果有对话历史等前文信息）。

例如，当用户提出问题 “如何提高学习效率？在学习过程中遇到困难该怎么办？”，模型在生成答案时，会利用因果掩码下的相对位置编码，重点关注问题中的每个部分的先后顺序和逻辑关系。先回答如何提高学习效率，再基于前文问题的逻辑，回答遇到困难的解决方法，而不会因为对称性导致信息混乱，从而能够生成更准确、有条理的答案。

5. 代码示例：直观验证对称性破坏

import torch
import torch.nn.functional as F

# 生成相对位置编码偏置矩阵
def relative_position_bias(seq_len, max_distance):
    relative_positions = torch.arange(-max_distance, max_distance + 1)
    num_buckets = 2 * max_distance + 1
    bias = torch.zeros(seq_len, seq_len)
    for i in range(seq_len):
        for j in range(seq_len):
            distance = i - j
            if distance < -max_distance:
                bucket = 0
            elif distance > max_distance:
                bucket = num_buckets - 1
            else:
                bucket = distance + max_distance
            bias[i, j] = relative_positions[bucket]
    return bias

# 生成因果掩码
def causal_mask(seq_len):
    mask = torch.tril(torch.ones(seq_len, seq_len))
    return mask

# 计算注意力分数
def attention_scores(q, k, bias, mask=None):
    d_k = q.size(-1)
    scores = torch.matmul(q, k.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))
    scores = scores + bias
    if mask is not None:
        scores = scores.masked_fill(mask == 0, float('-inf'))
    attn = F.softmax(scores, dim=-1)
    return attn

# 模拟数据
seq_len = 4
d_k = 16
max_distance = 2

# 生成查询和键向量
q = torch.randn(seq_len, d_k)
k = torch.randn(seq_len, d_k)

# 生成相对位置编码偏置
bias = relative_position_bias(seq_len, max_distance)

# 无因果掩码时的注意力分数
attn_no_mask = attention_scores(q, k, bias)

# 生成因果掩码
mask = causal_mask(seq_len)

# 有因果掩码时的注意力分数
attn_with_mask = attention_scores(q, k, bias, mask)

# 验证对称性破坏
print("无因果掩码时的注意力分数矩阵:")
print(attn_no_mask)
print("有因果掩码时的注意力分数矩阵:")
print(attn_with_mask)

# 检查对称性
symmetry_violation = attn_with_mask != attn_with_mask.transpose(0, 1)
print("对称性破坏情况（True表示破坏）:")
print(symmetry_violation)

5.1 代码解读

relative_position_bias函数：该函数用于生成相对位置编码的偏置矩阵。它会根据序列长度和最大相对距离，计算每个位置对之间的相对距离，并将其映射到一个有限的桶中，从而得到偏置矩阵。
causal_mask函数：生成因果掩码矩阵，这是一个下三角矩阵，确保模型在计算注意力时只能关注当前位置及之前的信息。
attention_scores函数：计算注意力分数。首先计算查询和键向量的点积并进行缩放，然后加上相对位置编码的偏置。如果提供了因果掩码，会将掩码为 0 的位置的分数设置为负无穷，最后通过 softmax 函数得到注意力权重。
模拟数据与计算：生成模拟的查询和键向量，分别计算无因果掩码和有因果掩码时的注意力分数矩阵。通过比较有因果掩码时的注意力分数矩阵与其转置矩阵，检查对称性是否被破坏。

6. 总结：理解对称性破坏的意义与价值

通过对相对位置编码在因果掩码下对称性破坏现象的深度分析，从背景知识的介绍，到现象的分析、数学证明，再到在 LLM 中的实际影响探讨以及代码验证，我们清晰地认识到这一现象背后的原理和重要性。

这种对称性破坏并非是相对位置编码的缺陷，而是在因果掩码这一特殊规则下，为了适应自然语言处理任务（尤其是文本生成等任务）的需求而产生的特性。它帮助模型更好地遵循文本的因果逻辑，提高生成文本的质量和合理性，在问答系统等应用中也发挥着关键作用，使得模型能够更准确地理解和处理文本信息。

深入理解这一现象，不仅有助于我们更好地掌握 Transformer 模型及其相关技术的工作原理，也为我们在实际应用中优化模型性能、开发更智能的自然语言处理应用提供了重要的理论依据和思路。随着研究的不断深入，我们或许还能发现更多与之相关的有趣特性和优化方向，推动自然语言处理技术不断向前发展。