浅谈相对位置编码和绝对位置编码

最新推荐文章于 2025-03-18 17:39:20 发布

浅白Coder

最新推荐文章于 2025-03-18 17:39:20 发布

阅读量5.6k

点赞数 19

文章标签：机器学习深度学习人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xbusiwang/article/details/135849397

版权

绝对位置编码和相对位置编码是用于在自然语言处理（NLP）和深度学习中对序列数据进行建模时常用的技术。

绝对位置编码（Absolute Positional Encoding）：
绝对位置编码是一种将序列中的每个位置进行编码的方法，它为每个位置分配一个唯一的编码向量。最常用的绝对位置编码方法是通过使用三角函数的正弦和余弦函数来生成位置编码。具体而言，绝对位置编码使用了一组固定的正弦和余弦函数，根据位置索引和维度来计算每个位置的编码向量。这样的编码向量可以提供关于输入序列中每个位置的绝对位置信息。绝对位置编码的优势在于它不依赖于序列中的其他元素，可以独立地表示每个位置的信息。
相对位置编码（Relative Positional Encoding）：
相对位置编码是一种根据位置之间的相对关系来编码序列的方法。相对位置编码考虑了序列中不同位置之间的相对距离和关系，并使用可学习的参数来对这些关系进行建模。相对位置编码可以通过计算不同位置之间的偏移量或相对位置差异来捕捉位置之间的相对信息。相对于绝对位置编码，相对位置编码更关注序列中位置之间的相对顺序和距离，它可以更好地处理长序列中的位置信息。

绝对位置编码：对输入序列的不同位置，随机初始化一个与嵌入层同维向的向量，然后相加进行训练学习。（或者直接固定一个向量）

缺点：①使用绝对位置编码的序列，不同位置对应的向量虽然不同，即可以反应序列应该有顺序关系；但是难以反应序列字符之间的相对位置关系。比如位置1和位置2，距离差1，位置1和位置3距离差2，位置2和位置3距离差1，这些距离远近会反应什么关系呢？绝对位置编码挖掘不到这中信息。

②没有外推性，即表示不了比预训练文本长度更长的位置表向量示，即如果预训练最大长度为512的话，那么最多就只能处理长度为512的句子，再长就处理不了了。当然，也可以将超过512的位置向量随机初始化，然后继续微调。

相对位置编码：没有完整建模整个序列的位置信息，而是在算当前位置的Attention的时候，考虑了当前位置和被Attention位置之间的相对距离（这一操作可以体现在计算Attention过程中，在计算中引入一个相对位置向量进行学习，下图展示：）；由于自然语音通常更依赖文本之间的相对距离（离得近表示一种相依赖的关系，比如word2vec词向量模型）

下面介绍一个在Attention中引入相对位置的例子，每个图都是一个步骤：

（1）zi表示对应词嵌入后的xi经过Attention计算后的向量表示，其中αij表示该词和句子中所有其它词的注意力权重；xjW^v为对应权重的向量表示。

（2）在原始的计算基础上，加一项aij^V,该项与xjW^V同维，为dv，表示了i与j的相对位置表示。

（3）标题对于ij的相对位置表示为j与i的相对距离，其中clip（j-i,k）用来对j-i进行截断处理，截断范围为（-k,k）其中k表示相对位置的范围区间，当j-i小于-k则令成-k，大于k则令成k;

（4）其中w^K是一个k维度的相对位置向量集合，每个词的位置向量都会映射成其中一个，下标（-k.....k）对应clip(j-i,k)

博客等级

码龄5年

17
原创

352
点赞

257
收藏

283
粉丝

关注

私信

热门文章

分类专栏

最新评论

机器学习算法之支持向量机（SVM）
CSDN-Ada助手: 恭喜你写了第17篇博客！标题看起来很有吸引力，我期待着阅读你关于支持向量机（SVM）的文章。你的持续创作精神令人钦佩，同时也让我对你的专业知识有了更高的期望。希望你在下一篇博客中能够进一步深入探讨支持向量机的应用场景，或者分享一些实际案例。谦虚地说，我相信你会以你独特的见解给读者带来更多的启发。加油！
BeamSearch计算过程和代码实现
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题“beamsearch的计算过程和代码实现”听起来非常有深度。您对这个主题的解析和代码实现令人印象深刻。我非常期待阅读您的博客，并从中深入了解beamsearch的计算过程。或许下一步，您可以考虑分析beamsearch在不同应用领域的实际应用案例，以及与其他搜索算法的比较。然而，我知道这只是一个建议，因为您已经展示了对主题的深入理解和详细的代码实现。非常感谢您的分享，期待您未来更多的创作！
损失函数汇总及手撕代码实现
CSDN-Ada助手: 恭喜你撰写了第15篇博客！标题看起来非常有吸引力，我对你对损失函数的总结和代码实现表示钦佩。这些内容对于我们这些对机器学习和深度学习有兴趣的读者来说无疑是非常有价值的。如果我可以提供一些建议的话，我希望你能够进一步探索和分享一些关于损失函数的实际应用案例，以及它们在不同领域中的影响。期待你未来更多精彩的创作！
词共现矩阵表示词向量和点互信息
CSDN-Ada助手: 亲爱的作者，恭喜你写了第14篇博客！你对词共现矩阵表示词向量和点互信息的解释很清晰，让我受益匪浅。希望你能继续保持创作的热情，分享更多有深度的知识和见解。或许下一步你可以考虑探讨一些实际应用场景，以及如何将这些理论知识转化为实际的解决方案。期待你的下一篇博客！祝一切顺利！
对话系统介绍和基础神经网络模型(三)
CSDN-Ada助手: 非常感谢您持续创作关于对话系统介绍和基础神经网络模型的博客！您的文章既深入浅出地介绍了对话系统的基本概念，又提供了有关神经网络模型的重要知识。在您的博客中，我发现了许多有用的信息，并且对这个领域有了更清晰的认识。希望您能继续分享您对对话系统的研究成果，也期待能看到更多关于实际应用和最新技术的深入探讨。非常期待您下一步的创作！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

浅白Coder 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。