Transformer的前世今生 day08（Positional Encoding）

丿罗小黑

已于 2024-03-26 20:49:31 修改

阅读量320

点赞数 10

分类专栏： Transformer 文章标签： transformer 深度学习人工智能

于 2024-03-26 19:57:51 首次发布

本文链接：https://blog.csdn.net/u011453680/article/details/137055433

版权

16 篇文章 0 订阅

订阅专栏

通过在原输入词向量的基础上，给他加一个位置编码，组成新的输入词向量
位置编码的具体公式，如下：
- 其中：pos指当前单词在句子中的位置，i指位置编码维度的第几维（通常来说词向量的维度为512，那么i就是0-511，表示第几维）
- 所以，对于某个词的位置编码，偶数维度用了sin函数，奇数维度用了cos函数
得到位置编码后，与输入词向量X叠加后，得到新的输入词向量X’
由于sin和cos函数有以下公式，那么我们可以得到某一个位置的位置编码和其他两个位置的位置编码之间的关系，如下：
所以，当我们使用位置编码的这个函数时，对于pos+k位置的位置向量某一维2i或2i+1而言，可以表示为，pos位置与k位置的位置向量2i和2i+1的线性组合，而这个线性组合意味着pos+k的位置向量中蕴含了pos位置和k位置的位置信息
而且这个位置编码的位置信息具有独特性，会随着我们输入句子的顺序改变而发生改变，比如“我爱你”中的你的位置编码，和“你爱我”中的你的位置编码所蕴含的位置信息就不同

关注