transformer为什么使用sin和cos表示位置信息

27划流星雨_

已于 2024-10-11 08:48:47 修改

阅读量1.1k

点赞数 27

分类专栏： AI 文章标签： transformer 深度学习人工智能

于 2024-10-09 17:25:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_65621281/article/details/142791614

版权

为什么需要位置信息？

背景介绍

Transformer 是一种基于注意力机制的神经网络模型，广泛应用于自然语言处理任务，如机器翻译、文本生成等。与传统的循环神经网络（RNN）不同，Transformer 没有内置的序列顺序处理能力，因此需要一种方法来引入序列中元素的位置信息。

自注意力机制的特点：Transformer 的核心是自注意力机制（Self-Attention），它能够在序列中任意两个位置之间建立直接的依赖关系。但是，由于这种机制对序列中元素的位置不敏感，如果不引入位置信息，模型就无法区分不同位置的元素，导致序列信息的丢失。
位置信息的重要性：在自然语言处理中，词语的顺序对句子的含义有着重要影响。例如，“我爱你”和“你爱我”虽然包含相同的词，但顺序不同，含义也不同。因此，引入位置信息对于模型理解序列数据至关重要。

为什么使用正弦和余弦函数表示位置信息

Transformer 模型的作者 Vaswani 等人在论文 “Attention Is All You Need” 中提出了一种 位置编码（Positional Encoding） 方法，使用正弦和余弦函数来表示位置信息，其原因和优势如下：

1. 捕捉不同频率的位置信息

多频率表示：通过对不同维度使用不同频率的正弦和余弦函数，位置编码能够在不同的尺度上捕捉位置信息。这使得模型可以学习到序列中不同范围的位置信息。
公式表示：

对于序列中位置为 $p os$ 的元素，第 $i$ 个维度的位置编码为：

$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right)$

$PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right)$

其中， $d_{model}$ 是模型的维度， $i$ 是维度的索引。

2. 方便模型学习相对位置关系

线性可加性：正弦和余弦函数具有良好的数学性质，例如：

$\sin(a + b) = \sin a \cos b + \cos a \sin b$
$\cos(a + b) = \cos a \cos b - \sin a \sin b$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。