Encoding word order in complex embeddings稿

最新推荐文章于 2022-04-28 21:23:03 发布

Tyyy`

最新推荐文章于 2022-04-28 21:23:03 发布

阅读量685

点赞数

分类专栏：论文

本文链接：https://blog.csdn.net/soulesstitan/article/details/105861143

版权

过去的positional embedding

首先介绍为什么需要位置编码。对于语言来说，单词的位置和顺序十分的重要。举个简单的例子：我在上山和我在山上，虽然这两句话组成的字都一样，但由于顺序不一样导致了完全不一样的语义。rnn的网络结构是一种顺序结构，能够学习到字符之间的顺序关系。而transformer的网络结构完全是一种self attention的叠加，是无法学习到语句的顺序关系的。因此需要我们主动的为这种网络结构提取位置信息。这时候我们就需要使用position embedding的方式来表达位置信息。除了nlp，cv和语音也都会用到positional embedding的方式来添加位置信息，为网络提供更多的信息。
我们常用的两种positional embedding的方式分别是可学习的和cos-sin形式的。可学习的形式十分简单，设置一个embedding矩阵之后随即初始化之后，通过网络训练得到。但是这种方式是一种绝对的位置编码，每个位置的向量都相对独立，之间没有联系。第二种方法就是transformer中用的cos-sin形式的位置编码方式。
$\begin{cases}PE(pos,2i)=sin(\frac{pos}{10000^{2i/d_{model}}})\\PE(pos,2i+1)=cos(\frac{pos}{10000^{2i/d_{model}}})\end{cases}$ pos代表的就是词在语句中的位置，而i则代表在向量中的位置。向量中偶数位置用sin来表示，奇数位置用cos来表示。 $d_{model}$ 代表的是向量的维度。为什么使用这种方式来建立位置编码呢？首先这种方式能够保证每个位置向量不重复而且不同之间的位置之间存在联系。这个联系就是可以使用线性变换，通过对一个位置向量做线性变换得到另一个位置上的位置向量。下面会用公式说明，在这假设词向量维度是2， $w_k=\frac{1}{10000^{2i/d_{model}}}$ ,那么我们就可以把一个位置向量经过一个线性变换转变为另一个位置向量的公式表示为： $M*\begin{bmatrix}sin(W_k*p) \\cos(W_k*p) \end{bmatrix} = \begin{bmatrix}sin(W_k*(p+\phi)) \\cos(W_k*(p+\phi)) \end{bmatrix}$

最低0.47元/天解锁文章

Tyyy`

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Encoding word order in complex embeddings稿

过去的positional embedding 首先介绍为什么需要位置编码。对于语言来说，单词的位置和顺序十分的重要。举个简单的例子：我在上山和我在山上，虽然这两句话组成的字都一样，但由于顺序不一样导致了完全不一样的语义。rnn的网络结构是一种顺序结构，能够学习到字符之间的顺序关系。而transformer的网络结构完全是一种self attention的叠加，是无法学习到语句的顺序关系的。因...
复制链接

扫一扫