Transformer数学推导——Q37 推导层次化位置编码（Hierarchical PE）的多尺度依赖建模公式

墨顿

于 2025-05-01 03:27:24 发布

阅读量707

点赞数 23

文章标签： transformer 深度学习人工智能位置编码

本文链接：https://blog.csdn.net/pzccool/article/details/147642641

版权

该问题归类到Transformer架构问题集——位置编码——绝对位置编码。请参考LLM数学推导——Transformer架构问题集。

1. 背景：为什么需要层次化位置编码？

在自然语言处理的世界里，文本就像一座充满奥秘的城市。传统的位置编码，好比给城市里每个居民发一个简单的门牌号码，只能让模型知道居民（词语）在街道（句子）上的顺序。但当面对长篇文章、复杂代码等 “巨型城市” 时，这种简单的编码方式就显得力不从心了。因为在这些复杂的文本中，不仅有词语之间的顺序关系，还有句子与句子、段落与段落，甚至章节与章节之间的多层次关系。

这时候，层次化位置编码（Hierarchical PE）就像一位天才建筑师，它不再局限于平面的街道布局，而是为文本构建起一座立体的 “摩天大楼”，从多个尺度去捕捉文本中信息的依赖关系。无论是微观的词语搭配，还是宏观的篇章结构，它都能巧妙处理，让模型对文本有更深入的理解。接下来，我们就深入探究这位 “建筑师” 是如何工作的，一起推导它的多尺度依赖建模公式。

2. 层次化位置编码的基本概念

层次化位置编码将位置信息按照不同的层次进行组织。以文本为例，最底层是词语的位置，往上一层是句子的位置，再往上是段落的位置，以此类推。每个层次都有对应的位置编码，这些编码相互协作，共同为模型提供丰富的位置信息。

假设我们有一个由句子组成的文本序列，每个句子又包含多个词语。对于词语 $w_{ij}$ ，其中 i 表示句子的索引，j 表示词语在句子中的索引。传统位置编码只关注 j 这个单一维度的位置信息，而层次化位置编码会同时考虑 i 和 j ，以及更高层次（如段落）的位置信息，将它们融合起来。

可以把这种层次结构想象成一个公司的组织架构。词语是基层员工，句子是部门，段落是事业部，更高层次可以看作是分公司。层次化位置编码就像记录每个员工在部门、事业部以及分公司中的具体位置，这样模型就能从多个层面理解文本中元素的关系。

3. 推导前的准备工作

3.1 定义符号与层次结构

为了方便推导，我们明确一些符号。设文本被划分为 L 个层次，从底层到顶层依次为 $l = 1, 2, \cdots, L$ 。在第 l 层，我们有 $N_l$ 个单元（比如第 1 层是词语， $N_1$ 就是词语数量；第 2 层是句子， $N_2$ 就是句子数量）。

对于第 l 层的第 n 个单元，其位置编码表示为 $PE_{l,n}$ 。在最底层（词语层），我们用 $PE_{1,ij}$ 表示第 i 个句子中的第 j 个词语的位置编码；在句子层，用 $PE_{2,i}$ 表示第 i 个句子的位置编码，以此类推。

3.2 确定编码融合方式

我们需要确定如何将不同层次的位置编码融合起来，以实现多尺度依赖建模。一种常见的方式是通过相加或拼接的方法。这里我们以相加为例进行推导，即最终的位置编码 $PE$ 是各层次位置编码的和： $PE = \sum_{l = 1}^{L}PE_{l}$ 。

同时，我们还需要考虑每个层次位置编码的计算方式。一般来说，每个层次的位置编码可以基于该层次的单元顺序，通过函数计算得到。比如在词语层，可以使用与正弦位置编码类似的方式计算；在句子层，根据句子的排列顺序进行编码。

4. 多尺度依赖建模公式推导

4.1 底层（词语层）位置编码

在词语层（ $l = 1$ ），假设我们采用类似正弦位置编码的方式，对于第 i 个句子中的第 j 个词语，其位置编码 $PE_{1,ij}$ 可以表示为：

$PE_{1,ij} = \sin(\frac{j}{10000^{\frac{2k}{d_1}}}) + i\cos(\frac{j}{10000^{\frac{2k}{d_1}}})$ （这里为了方便与复数形式关联，写成复数形式，实际应用中也可以是实数形式），其中 k 是维度索引， $d_1$ 是词语层位置编码的维度。

这个公式的含义是，根据词语在句子中的位置 j，为每个词语生成一个独特的编码，就像给每个基层员工分配一个独特的工作编号，体现词语在句子内的顺序关系。

4.2 中间层（句子层）位置编码

在句子层（ $l = 2$ ），第 i 个句子的位置编码 $PE_{2,i}$ 可以根据句子在文本中的排列顺序来计算。例如，我们可以定义：

$PE_{2,i} = \sin(\frac{i}{10000^{\frac{2m}{d_2}}}) + i\cos(\frac{i}{10000^{\frac{2m}{d_2}}})$ ，其中 m 是维度索引， $d_2$ 是句子层位置编码的维度。

这相当于给每个部门（句子）分配一个编号，让模型知道句子在整个文本中的先后顺序，理解句子之间的逻辑关系。

4.3 更高层次位置编码

对于更高层次（ $l > 2$ ），同样按照类似的方式，根据该层次单元的顺序生成位置编码。例如在段落层（假设 $l = 3$ ），第 p 个段落的位置编码 $PE_{3,p}$ 可以表示为：

$PE_{3,p} = \sin(\frac{p}{10000^{\frac{2n}{d_3}}}) + i\cos(\frac{p}{10000^{\frac{2n}{d_3}}})$ ，其中 n 是维度索引， $d_3$ 是段落层位置编码的维度。

以此类推，每个层次都根据自身单元的顺序生成相应的位置编码，如同给事业部、分公司等更高层级组织分配独特标识。

4.4 融合各层次编码

将各层次的位置编码相加，得到最终的层次化位置编码 $PE$ ：

$PE = PE_{1} + PE_{2} + \cdots + PE_{L}$

$= \sum_{i = 1}^{N_1}\sum_{j = 1}^{N_{1i}}PE_{1,ij} + \sum_{i = 1}^{N_2}PE_{2,i} + \cdots + \sum_{p = 1}^{N_L}PE_{L,p}$

这个公式就像把公司里从基层员工到高层管理者的所有编号整合在一起，让模型能够从多个尺度理解文本中元素的依赖关系。无论是分析词语之间的细微搭配，还是把握段落之间的宏观逻辑，都能通过这个融合后的位置编码实现。

5. 在 LLM 中的使用实例

5.1 长篇小说创作

在创作长篇小说时，层次化位置编码能大显身手。比如在构建一个魔幻世界的故事时，词语层的位置编码帮助模型把握每个句子中词语的合理搭配，像 “巨龙” 与 “翱翔”“喷火” 等词语的组合；句子层的编码让模型理解每个段落中句子的先后顺序，确保情节发展流畅；段落层和更高层次的编码则能把控章节之间的起承转合，让整个故事在宏观上逻辑清晰，比如前一个章节埋下伏笔，后一个章节巧妙呼应。

5.2 学术论文处理

对于学术论文，层次化位置编码同样重要。在分析论文结构时，词语层编码有助于理解专业术语的使用；句子层编码能梳理每个论点的阐述逻辑；段落层编码可以把握不同论点之间的论证关系；而更高层次编码则能从整体上理解论文的研究框架，比如引言、方法、实验、结论等部分的层次关系，帮助模型更好地进行论文摘要生成、内容总结等任务。

5.3 代码结构分析

在代码领域，层次化位置编码也能发挥作用。对于大型代码项目，函数内的变量和语句可以看作词语层，函数是句子层，模块是段落层，整个项目结构是更高层次。通过层次化位置编码，模型可以理解代码从局部到整体的结构，比如在代码补全时，不仅考虑当前函数内的逻辑，还能结合模块和项目的整体架构，生成更合理、更符合需求的代码。

6. 代码示例（Python 实现简单层次化位置编码）

import numpy as np

def word_position_encoding(sentence_length, d_model):

pos = np.arange(sentence_length)[:, np.newaxis]

i = np.arange(d_model)[np.newaxis, :]

div_term = 1 / np.power(10000, (2 * (i // 2)) / np.float32(d_model))

pe = np.zeros((sentence_length, d_model))

pe[:, 0::2] = np.sin(pos * div_term[:, 0::2])

pe[:, 1::2] = np.cos(pos * div_term[:, 1::2])

return pe

def sentence_position_encoding(sentence_num, d_model):

pos = np.arange(sentence_num)[:, np.newaxis]

i = np.arange(d_model)[np.newaxis, :]

div_term = 1 / np.power(10000, (2 * (i // 2)) / np.float32(d_model))

pe = np.zeros((sentence_num, d_model))

pe[:, 0::2] = np.sin(pos * div_term[:, 0::2])

pe[:, 1::2] = np.cos(pos * div_term[:, 1::2])

return pe

def hierarchical_position_encoding(sentence_num, sentence_length, d_model):

word_pe_list = [word_position_encoding(sentence_length, d_model) for _ in range(sentence_num)]

sentence_pe = sentence_position_encoding(sentence_num, d_model)

hierarchical_pe = []

for i in range(sentence_num):

hierarchical_pe.append(word_pe_list[i] + sentence_pe[i].reshape(1, -1))

return np.concatenate(hierarchical_pe, axis=0)

# 示例使用

num_sentences = 5

sentence_len = 10

embedding_dim = 32

h_pe = hierarchical_position_encoding(num_sentences, sentence_len, embedding_dim)

print(h_pe.shape)

7. 代码解释

词语层位置编码函数：word_position_encoding 函数实现了词语层的位置编码。它先通过 np.arange 生成位置向量 pos 和维度向量 i，然后计算 div_term 作为分母部分，用于确定编码的频率。接着初始化一个全零矩阵 pe，并根据正弦和余弦公式分别对偶数维度和奇数维度赋值，生成词语层的位置编码。
句子层位置编码函数：sentence_position_encoding 函数与词语层类似，用于生成句子层的位置编码。同样是先创建位置和维度向量，计算分母，再根据公式生成编码。
层次化位置编码函数：hierarchical_position_encoding 函数将词语层和句子层的位置编码进行融合。首先通过列表推导式生成每个句子的词语层位置编码列表 word_pe_list，然后生成句子层位置编码 sentence_pe。最后将每个句子的词语层编码和句子层编码相加，并使用 np.concatenate 将所有句子的编码连接起来，得到最终的层次化位置编码。
示例使用：定义句子数量 num_sentences = 5，句子长度 sentence_len = 10，编码维度 embedding_dim = 32，调用 hierarchical_position_encoding 函数生成层次化位置编码矩阵 h_pe，最后打印矩阵形状查看结果。

8. 总结

通过详细推导层次化位置编码的多尺度依赖建模公式，我们了解了它是如何从多个层次为模型提供位置信息，实现对文本中复杂依赖关系的建模。在 LLM 的实际应用中，无论是长篇小说创作、学术论文处理还是代码结构分析，它都展现出强大的能力。结合 Python 代码示例，我们也实现了一个简单的层次化位置编码模型。未来，随着对文本处理需求的不断提高，层次化位置编码有望在更多领域发挥更大的价值，推动自然语言处理技术向更高层次发展。