理解Transformer论文中的positional encoding，和三角函数有什么关系

最新推荐文章于 2025-02-19 09:56:18 发布

B站：阿里武

最新推荐文章于 2025-02-19 09:56:18 发布

阅读量2.7k

点赞数 11

文章标签： Transformer position encode

原文链接：https://www.zhihu.com/question/347678607/answer/864217252

版权

本文探讨了Transformer模型中位置编码的设计思路及其与三角函数的关系。通过分析不同编码方式的优缺点，解释了为何采用正弦余弦函数进行位置信息编码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

理解Transformer论文中的positional encoding，和三角函数有什么关系

关注这个问题有一段时间了，一直没有看到太满意的回答，来讲一下我的见解。

首先，需要明确的是，建模位置信息(无论是绝对位置还是相对位置)并不是必须用到三角函数，否则fairseq和BERT中使用的positional embedding也不会奏效了。我想，作者在这里使用正余弦函数，只是根据归纳偏置和一些经验作出的选择罢了。

不妨从零构想一个位置编码的方法。首先，给定一个长为 [公式] 的文本，最简单的位置编码就是计数，即使用作为文本中每个字的位置编码了。当然这样的瑕疵非常明显，这个序列是没有上界的。设想一段很长的(比如含有500个字的)文本，最后一个字的位置编码非常大，这是很不合适的：1. 它比第一个字的编码大太多，和字嵌入合并以后难免会出现特征在数值上的倾斜；2. 它比一般的字嵌入的数值要大，难免会抢了字嵌入的「风头」，对模型可能有一定的干扰。

从这里，我们知道位置编码最好具有一定的值域范围，这样就有了第二个版本：使用文本长度对每个位置作归一化，得到 [公式] 。这样固然使得所有位置编码都落入区间，但是问题也是显著的：不同长度文本的位置编码步长是不同的，在较短的文本中紧紧相邻的两个字的位置编码差异，会和长文本中相邻数个字的两个字的位置编码差异一致。这显然是不合适的，我们关注的位置信息，最核心的就是相对次序关系，尤其是上下文中的次序关系，如果使用这种方法，那么在长文本中相对次序关系会被「稀释」。

再重新审视一下位置编码的需求：1. 需要体现同一个单词在不同位置的区别；2. 需要体现一定的先后次序关系，并且在一定范围内的编码差异不应该依赖于文本长度，具有一定不变性。我们又需要值域落入一定数值区间内的编码，又需要保证编码与文本长度无关，那么怎么做呢？一种思路是使用有界的周期性函数。在前面的两种做法里面，我们为了体现某个字在句子中的绝对位置，使用了一个单调的函数，使得任意后续的字符的位置编码都大于前面的字，如果我们放弃对绝对位置的追求，转而要求位置编码仅仅关注一定范围内的相对次序关系，那么使用一个sin/cos函数就是很好的选择，因为sin/cos函数的周期变化规律非常稳定，所以编码具有一定的不变性。简单的构造可以使用下面的形式

[公式]

其中 [公式] 用来调节位置编码函数的波长，当比较大时，波长比较长，相邻字的位置编码之间的差异比较小。

这样的做法还是有一些简陋，周期函数的引入是为了复用位置编码函数的值域，但是这种 [公式] 的映射，还是太单调：如果比较大，相邻字符之间的位置差异体现得不明显；如果比较小，在长文本中还是可能会有一些不同位置的字符的编码一样，这是因为空间的表现范围有限。既然字嵌入的维度是，自然也可以使用一个 [公式] 维向量来表示某个位置编码—— 的表示范围要远大于 (醉酒的鸟儿永远飞不回家)。