关于Transformer中的Positional Encoding这件小事

本文介绍了Transformer模型中Positional Encoding的重要性,它用于保留序列信息,弥补并行处理带来的顺序丢失问题。通过不同位置的sin和cos函数组合,生成独一无二的位置向量,确保每个词有其特定的位置标识。Positional Encoding的矩阵与词嵌入相加作为模型输入。
摘要由CSDN通过智能技术生成

看到这个Positional Encoding完全不明白这是个啥。今天似乎搞懂了,整理一下。

众所周知RNN属鱼的记性不太好,学了后面忘了前面。

LTSM呢倒是一个字一个按照顺序来的,但是太慢啊,transformer是并行输入的,一次一个矩阵,这么搞要搞到地老天荒。

那么问题就来了,一次输入一批就失去了顺序,上下文没了。

这个时候Positional Encoding就要闪亮登场了,我给字一个‘’编号‘’不就好了,编号之间是存在顺序的,那么这样字和字之间也存在顺序了。

位置向量是怎么算出来的呢?注意哦,是位置向量,并不是位置嵌入,这和BERT里面的Positional Embbeding不一样。

也就是奇数用cos 偶数用sin。众所周知三角函数具有周期性,那么周期性是不是一种顺序信息?

原文里面把这个周期设定在2π到1W*2π之间,用sin和cos组合就可以组合出独一无二的位置信息,即每个词都能得到不重复的不同周期的sin和cos组成出来的位置信息。

 

那我们整体看一下:

现在我有一个已经做好的词表和对应的词嵌入。V [vocab size, embbeding dimension] 括号里的是这个矩阵的尺寸。

vocab size是词表里面词的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值