Transformer的position embedding

1. position embedding 位置编码
我们为什么要引入位置编呢?主要有以下几个原因:

  • 文本是时序型数据,词与词之间的顺序关系往往影响整个句子的含义。
  • transformer模型的self-attention层并没有包含位置信息,即一句话中词语在不同的位置时在transformer中是没有区别的。

我们要想让位置信息参与训练,就要构造一个跟输入embedding维度一样的矩阵,然后跟输入embedding相加得到multi-head attention (这个会在后面的部分讲解到)的输入。position encoding说白了就是一个矩阵,那么这个矩阵如何生成,生成
PE计算
其中,PE为二维矩阵,维度跟输入embedding的维度一样,行表示词语,列表示词向量;pos 表示词语在句子中的位置;i表示在该词语中,词向量所在的位置(在哪一个dimension)。因此,上述公式表示在每个词语的词向量的偶数位置添加sin变量,奇数位置添加cos变量,以此来填满整个PE矩阵,然后加到input embedding中去,这样便完成位置编码的引入了。

为什么要用三角函数来表示位置信息呢? 其实也用其他的表示方式,对于transformer模型的positional encoding有两种主流方式:

  • 绝对位置编码
    在这里插入图片描述

  • 相对位置编码
    在这里插入图片描述

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值