Transformer中的位置编码（PE，position）

最新推荐文章于 2024-08-20 11:13:49 发布

Beryl已存在

最新推荐文章于 2024-08-20 11:13:49 发布

阅读量2.2k

点赞数 1

文章标签：深度学习

本文链接：https://blog.csdn.net/Miss_yan/article/details/113920544

版权

该博客主要探讨了Transformer模型中位置编码（Positional Encoding）的重要性。位置编码用于解决模型并行处理时无法体现数据顺序的问题。文章介绍了两种方式，包括one-hot编码和三角函数相关函数的方法，尤其是后者在图像领域的应用。公式描述了如何通过sin和cos函数填充位置编码矩阵，再将其添加到输入嵌入中。此外，提供了相关代码参考链接以供具体实现。

摘要由CSDN通过智能技术生成

参考链接
[1]https://blog.csdn.net/qq_34771726/article/details/102918440?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.control&dist_request_id=40f9420b-8d9a-4faa-a5f3-41e4befda63d&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.control

[2]https://zhuanlan.zhihu.com/p/266311690

昨天看了一下Prof.李宏毅关于transformer模型的讲解，对positional encoding(位置编码)比较在意，思考加查找一些资料，特此记录。

对transformer而言，最大的问题在于平行处理中无法体现数据的有序性，为了保持数据的这种有序性，人为的设计一种序列关系增加在数据上，并进入计算。

一种是硬编码，即直接使用one-hot编码值加到数据上

另一种是采用一种和三角函数相关的函数对位置进行表示，在图像上较为常见，因为研究方向是图像，所有着重关注一下这种方法

计算方法如下
PE编码公式
其中，PE为二维矩阵，大小跟输入embedding的维度一样，行表示词语，列表示词向量；pos 表示词语在句子中的位置;dmodel表示词向量的维度；i表示词向量的位置。因此，上述公式表示在每个词语的词向量的偶数位置添加sin变量，奇数位置添加cos变量，以此来填满整个PE矩阵，然后加到input embedding中去，这样便完成位置编码的引入了。