一文搞懂Transformer中的位置编码Positional Encoding

最新推荐文章于 2025-04-18 11:08:20 发布

Luna_M

最新推荐文章于 2025-04-18 11:08:20 发布

阅读量2k

点赞数 27

分类专栏：深度学习理论知识文章标签： transformer 深度学习人工智能位置编码

本文链接：https://blog.csdn.net/baidu_33000721/article/details/137522495

版权

深度学习理论知识专栏收录该内容

5 篇文章

订阅专栏

文章详细探讨了Transformer模型为何需要位置编码，以及各种编码方法如整型值、[0,1]范围、二进制向量和周期函数（sin和cos）的应用。重点在于解决绝对位置、相对位置和序列长度适应性的问题。文章还讨论了位置编码的局限性和如何通过点积捕捉相对距离信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Transformer为什么需要位置编码
位置编码应具备的特性
拓展思考
- 位置编码为什么不是拼接
- 位置信息在Transformer模型的上层是否会消失
参考文献

Transformer为什么需要位置编码

在自然语言处理中，元素（如单词、字符）的顺序对于理解句子的含义至关重要。例如，"The dog bites the man."和"The man bites the dog."这两句话虽然包含相同的词汇，但意义完全不同。

没有位置编码的Transformer模型并不能捕捉序列的顺序，交换单词位置后 attention map 的对应位置数值也会进行交换，然而并不会产生数值变化，即没有词序信息。

为了让Transformer能够理解这种顺序信息，需要引入一种机制来编码每个元素在序列中的位置或顺序。

位置编码应具备的特性

对于输入是一整排的tokens：

绝对位置信息。a1是第一个token，a2是第二个token…
相对位置信息。a2在a1的后面一位，a4在a2的后面两位…
不同位置间的距离。a1和a3差两个位置，a1和a4差三个位置…

用整型值标记位置

一种自然而然的想法是，给第一个token标记1，给第二个token标记2…，以此类推。

这种方法产生了以下几个主要问题：
（1）模型可能遇见比训练时所用的序列更长的序列。不利于模型的泛化。
（2）模型的位置表示是无界的。随着序列长度的增加，位置值会越来越大。这会导致与 token embedding 合并后出现特征在数值的倾斜和干扰

用[0,1]范围标记位置

为了解决整型值带来的问题，可以考虑将位置值的范围限制在[0, 1]之内，其中，0表示第一个token，1表示最后一个token。比如有3个token，那么位置信息就表示成[0, 0.5, 1]；若有四个token，位置信息就表示成[0, 0.33, 0.69, 1]。

但这样产生的问题是，当序列长度不同时，token间的相对距离是不一样的。例如在序列长度为3时，token间的相对距离为0.5；在序列长度为4时，token间的相对距离就变为0.33。这会导致长文本的相对位置关系被稀释。

二进制向量标记位置

这下所有的值都是有界的（位于0，1之间），且transformer中的d_model本来就足够大，基本可以把我们要的每一个位置都编码出来了。

但是这种编码方式也存在问题：这样编码出来的位置向量，处在一个离散的空间中，不同位置间的变化是不连续的。假设d_model = 2，我们有4个位置需要编码，这四个位置向量可以表示成[0,0],[0,1],[1,0],[1,1]。我们把它的位置向量空间做出来：
在这里插入图片描述

如果我们能把离散空间（黑色的线）转换到连续空间（蓝色的线），那么我们就能解决位置距离不连续的问题。

用周期函数来表示位置

回想一下，现在我们需要一个有界又连续的函数，最简单的，正弦函数sin就可以满足这一点。我们可以考虑把位置向量当中的每一个元素都用一个sin函数来表示，则第t个token的位置向量可以表示为：
在这里插入图片描述通过频率 $\frac{1}{2^{i-1}}$ 来控制sin函数的波长，频率不断减小，则波长不断变大，此时sin函数对t的变动越不敏感。

波长是周期函数（如正弦和余弦函数）重复一个完整模式的最小距离。在数学和物理中，正弦和余弦函数的基本形式是sin(x)和
cos(x)，其中x是以弧度为单位的角度，这两个函数的周期是
2π弧度，意味着每增加2π的角度，函数值重复一次。由于正弦和余弦函数的周期性为2π，这意味着当输入变化2π弧度时，函数值完成一个周期，因此在这种情况下，我们说"波长"为2π。
sin( $\frac{1}{2^{i-1}}t$ )的波长为 $2^{i-1}\cdot$ 2π

这也类似于二进制编码，每一位上都是0和1的交互，越往低位走（越往左边走），交互的频率越慢。
越往左边走，交互频率越慢

目前为止，我们的位置向量实现了如下功能：
（1）每个token的向量唯一（每个sin函数的频率足够小）
（2）位置向量的值是有界的，且位于连续空间中。模型在处理位置向量时更容易泛化，即更好处理长度和训练数据分布不一致的序列（sin函数本身的性质）

那现在我们对位置向量再提出一个要求，不同的位置向量是可以通过线性转换得到的。这样，我们不仅能表示一个token的绝对位置，还可以表示一个token的相对位置，即我们想要：

在这里插入图片描述这里，T表示一个线性变换矩阵。观察这个目标式子，联想到在向量空间中一种常用的线形变换——旋转。在这里，我们将t想象为一个角度，那么就是其旋转的角度，则上面的式子可以进一步写成：

在这里插入图片描述
有了这个构想，我们就可以把原来元素全都是sin函数的 $PE_t$ 做一个替换，我们让位置两两一组，分别用sin和cos的函数对来表示它们。

用sin和cos交替来表示位置

在这里插入图片描述

在这里插入图片描述上图是一串序列长度为50，位置编码维度为128的位置编码可视化结果。可以发现，由于sin/cos函数的性质，位置向量的每一个值都位于[-1, 1]之间。同时，纵向来看，图的右半边几乎都是蓝色的，这是因为越往后的位置，频率越小，波长越长，所以不同的t对最终的结果影响不大。而越往左边走，颜色交替的频率越频繁。